Wget da página da web em html para muitos arquivos de texto

Question

Wget da página da web em html para muitos arquivos de texto

#1 resposta do lemonslice (1 votos)
#2 resposta do Kupiakos (1 votos)

0

Para fazer o download de toda a página, um nível abaixo de superSite.com, eu faço:

wget -r -l1 http:/superSite.com

Mas essas páginas são salvas no formato .html . Como posso tê-los salvos? em .txt format? (Eu preciso analisar parte do conteúdo numérico dessas páginas, então não me importo em perder os banners / imagens)

por user2413 24.07.2015 / 23:08

2 respostas

1

.html arquivos são arquivos de texto. A extensão do arquivo não faz diferença alguma. Todos os arquivos contêm alguma forma de binário no final e muitos arquivos contêm texto no final. Os arquivos HTML são compostos simplesmente da marcação HTML como texto, que é então analisada pelo navegador para mostrar o que o HTML descreve.

Se você quiser visualizá-lo como texto, use um editor de texto dedicado e abra os arquivos HTML. Ou, no navegador de arquivos, selecione "Abrir como", "Abrir com" ou semelhante.

por Kupiakos 24.07.2015 / 23:14

Quer aumentar o espaço em disco para o Ubuntu (eu tenho instalado é ao longo do Windows 7) [fechado] Como instalar o VLC sem conexão com a internet [duplicado]

score 1 · Accepted Answer

Se você quiser analisar seus arquivos HTML baixados, você pode filtrá-los através de algo como html2text (você tem que instalar o pacote 'html2text').

Isso pode ser útil se você quiser se livrar da formatação nos documentos .html , no entanto, analisar os arquivos originais .html ou os novos .txt é praticamente a mesma coisa.