Esta não é uma resposta completa, mas era grande demais para a caixa de comentários e espero que a coloque no caminho certo.
Descascar essas coisas enquanto o HTTrack está processando os arquivos pode ser difícil. Eles têm uma API C para plug-ins que parece fornecer ganchos que você pode usar para remover partes do documento antes que o HTTrack verifique se há URLs adicionais para download, mas não vejo uma interface de script para isso (alguém pode ter escrito um, embora).
Tirar essas coisas depois HTTrack baixou os arquivos seria mais fácil, mas bash provavelmente não é a melhor escolha aqui, porque você teria que gastar muito tempo ensinando bash como analisar HTML. Você provavelmente faria melhor usar uma linguagem de script mais avançada que tenha boas bibliotecas HTML / DOM embutidas ou disponíveis gratuitamente (Perl, Python, Ruby, etc.).