Como excluir elementos HTML por ID ou classe usando HTTrack ou script bash

0

Eu preciso copiar um site, mas quero excluir elementos HTML específicos por ID ou classe em todas as páginas (usando um script bash).

Eu preciso disso porque não quero anúncios ou outros recursos irritantes de alguns sites.

    
por pak memek 28.05.2010 / 19:49

1 resposta

0

Esta não é uma resposta completa, mas era grande demais para a caixa de comentários e espero que a coloque no caminho certo.

Descascar essas coisas enquanto o HTTrack está processando os arquivos pode ser difícil. Eles têm uma API C para plug-ins que parece fornecer ganchos que você pode usar para remover partes do documento antes que o HTTrack verifique se há URLs adicionais para download, mas não vejo uma interface de script para isso (alguém pode ter escrito um, embora).

Tirar essas coisas depois HTTrack baixou os arquivos seria mais fácil, mas bash provavelmente não é a melhor escolha aqui, porque você teria que gastar muito tempo ensinando bash como analisar HTML. Você provavelmente faria melhor usar uma linguagem de script mais avançada que tenha boas bibliotecas HTML / DOM embutidas ou disponíveis gratuitamente (Perl, Python, Ruby, etc.).

    
por 28.05.2010 / 21:30