software de extração da Web e spiders com GUI

-2

Estou à procura de um programa de extração de dados e e-mail para criar uma lista de discussão para setores específicos, estou procurando um com uma interface gráfica simples, mas com recursos extensos e fácil de usar no Ubuntu.

    
por Robotics News 12.10.2012 / 12:49

1 resposta

2

Você pode usar algo como o HTTrack para criar um espelho estático local do site primeiro. Em seguida, cd no espelho local e grep nos endereços de e-mail:

grep -srhwoIiE "[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}" . \
| tr '[:upper:]' '[:lower:]' \
| sort -u

Provavelmente existem regexes melhores para emails (é notoriamente difícil, porque o email RFC é muito solto), mas isso deve ajudá-lo.

    
por Oli 13.10.2012 / 17:53