Como excluir elementos HTML por ID ou classe usando HTTrack ou script bash

Question

Como excluir elementos HTML por ID ou classe usando HTTrack ou script bash

#1 resposta do (0 votos)

0

Eu preciso copiar um site, mas quero excluir elementos HTML específicos por ID ou classe em todas as páginas (usando um script bash).

Eu preciso disso porque não quero anúncios ou outros recursos irritantes de alguns sites.

bash html script

por pak memek 28.05.2010 / 17:49

1 resposta

Tags bash html script

Sincronização de tarefas do Google com iCal [duplicado] Como escrever um arquivo de lote para excluir subpastas com menos de 10 MB?

score 0 · Answer 1

Esta não é uma resposta completa, mas era grande demais para a caixa de comentários e espero que a coloque no caminho certo.

Descascar essas coisas enquanto o HTTrack está processando os arquivos pode ser difícil. Eles têm uma API C para plug-ins que parece fornecer ganchos que você pode usar para remover partes do documento antes que o HTTrack verifique se há URLs adicionais para download, mas não vejo uma interface de script para isso (alguém pode ter escrito um, embora).

Tirar essas coisas depois HTTrack baixou os arquivos seria mais fácil, mas bash provavelmente não é a melhor escolha aqui, porque você teria que gastar muito tempo ensinando bash como analisar HTML. Você provavelmente faria melhor usar uma linguagem de script mais avançada que tenha boas bibliotecas HTML / DOM embutidas ou disponíveis gratuitamente (Perl, Python, Ruby, etc.).