Se você quiser analisar seus arquivos HTML baixados, você pode filtrá-los através de algo como html2text (você tem que instalar o pacote 'html2text').
Isso pode ser útil se você quiser se livrar da formatação nos documentos .html , no entanto, analisar os arquivos originais .html ou os novos .txt é praticamente a mesma coisa.