Extrai arquivos de texto html para arquivo de texto

0

Eu tenho uma pasta com muitos arquivos html, eu gostaria de extrair apenas o texto contido no corpo deste html para um arquivo txt, como posso fazer isso?

    
por Meds 04.10.2015 / 18:21

1 resposta

1

Você pode iterar sobre cada arquivo no diretório e usar um navegador de linha de comando, como lynx ou w3m para renderizar o HTML em texto simples e salvá-lo em um arquivo de texto.

Exemplo de lince:

lynx -dump in.html > out.txt

exemplo do w3m:

w3m -dump in.html > out.txt
    
por 04.10.2015 / 18:30