Se você quiser analisar seus arquivos HTML baixados, você pode filtrá-los através de algo como html2text
(você tem que instalar o pacote 'html2text').
Isso pode ser útil se você quiser se livrar da formatação nos documentos .html
, no entanto, analisar os arquivos originais .html
ou os novos .txt
é praticamente a mesma coisa.