Wget da página da web em html para muitos arquivos de texto

0

Para fazer o download de toda a página, um nível abaixo de superSite.com, eu faço:

wget -r -l1 http:/superSite.com

Mas essas páginas são salvas no formato .html . Como posso tê-los salvos? em .txt format? (Eu preciso analisar parte do conteúdo numérico dessas páginas, então não me importo em perder os banners / imagens)

    
por user2413 25.07.2015 / 01:08

2 respostas

1

Se você quiser analisar seus arquivos HTML baixados, você pode filtrá-los através de algo como html2text (você tem que instalar o pacote 'html2text').

Isso pode ser útil se você quiser se livrar da formatação nos documentos .html , no entanto, analisar os arquivos originais .html ou os novos .txt é praticamente a mesma coisa.

    
por lemonslice 25.07.2015 / 01:30
1

.html arquivos são arquivos de texto. A extensão do arquivo não faz diferença alguma. Todos os arquivos contêm alguma forma de binário no final e muitos arquivos contêm texto no final. Os arquivos HTML são compostos simplesmente da marcação HTML como texto, que é então analisada pelo navegador para mostrar o que o HTML descreve.

Se você quiser visualizá-lo como texto, use um editor de texto dedicado e abra os arquivos HTML. Ou, no navegador de arquivos, selecione "Abrir como", "Abrir com" ou semelhante.

    
por Kupiakos 25.07.2015 / 01:14