Curl ou Lynx: removendo o Javascript é possível?

1

Estou fazendo a geração de corpus por meio de curl ou lynx de algumas páginas da web. Eu escrevi um programa no bash para remover o código html (por exemplo, quando eu faço lynx -source myurl), mas o problema é que algumas páginas têm JavaScript, que não é removido.

Existe alguma maneira de usar o curl ou o lynx para não obter Javascript? Eu quero que a codificação html na primeira instância obtenha os dados do meu corpo principal, é por isso que eu não usei a opção lynx -dump (e, ao invés disso, usei o lynx -source).

Eu acho que estou pedindo muito aqui. Ou, se você conhece algum aplicativo de remoção de JavaScript que funcione no ambiente do Cygwin, informe-nos. Obrigado pela leitura!

    
por greatbears 18.11.2015 / 20:51

1 resposta

0

Não vejo qualquer menção à transformação de origem na página de manual de curl . Então eu acho que a resposta é "não" lá.

Para lynx , você obtém a mesma resposta: trata as tags <script> quase como os comentários (com algum tratamento especial para a tag de fechamento). Ele fez isso desde por volta de 2000 (referindo-se ao changelog ).

Mas lynx ainda não tem uma opção para extrair comentários (e scripts) do download.

Você pode usar tidy para reformatar o arquivo para simplificar a criação de scripts. você mesmo ferramenta de remoção de script. Por exemplo, usar o -wrap com um valor grande (como o tamanho do arquivo) colocará todas as tags HTML na primeira coluna, permitindo que um script simples analise o resultado e descarte <script> a </script> , etc .

    
por 18.11.2015 / 23:19