Como baixar um conteúdo de página da web para um arquivo de texto exatamente como a página da web?

1

Estou tentando extrair algumas informações de uma página da web. Imagine que você tenha um nome dado a você (Northcentral Siberia, Rússia) e queira extrair toda a linha contendo esse nome em uma página da web. Para lidar com isso, eu fiz o download da página da web ( https://geofon.gfz-potsdam.de/eqinfo/list.php ) em um arquivo de texto usando o comando lynx ( lynx --dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt ) e tentei usar a linha contendo o nome "Northcentral Siberia, Russia". a seguinte linha mostra as informações na página da web que estão todas em uma linha:

2018-05-27 04:27:17 4.8 60.07°N 128.42°E    10  A       Northcentral Siberia, Russia

Mas quando baixei a página da Web em um arquivo de texto, a linha acima é dividida em duas linhas, da seguinte maneira:

2018-05-27 04:27:17 4.8 60.07°N 128.42°E    10  A   Northcentral 
Siberia, Russia

Nesse caso, se eu tentar extrair essa linha usando seu nome completo (Northcentral Siberia, Russia) e grep, ela falhará. Como posso lidar com isso?

    
por alireza niksejel 27.05.2018 / 18:44

1 resposta

4

É porque quando você usa a opção -dump para lynx , ele pressupõe que sua "tela" tem 80 colunas de largura, e a formatação da tabela, etc, da página da Web faz com que seja quebrada.

Adicione um argumento -width e isso deve funcionar -

lynx -width=200 -dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt

    
por 27.05.2018 / 22:10

Tags