como automaticamente e periodicamente raspar o site [fechado]

1

Estou deixando o serviço de telefone / internet confiável por vários meses. Eu quero que algumas contas de sites sejam registradas e verificadas diariamente, e o texto daqueles armazenados ou enviados por e-mail para análise posterior. Eu não posso confiar em meu próprio telefone ou servidor ou qualquer coisa para fazer isso, então eu espero que haja um lugar online em que este trabalho possa ser hospedado.

Se entender as razões da minha pergunta pode ajudar a fornecer a resposta:

  1. Um desses sites é exigido por ordem judicial para responder às mensagens periodicamente, e eu não gosto do relatório do site exatamente quando eu fiz e não verifiquei, a que hora / data / IP e assim por diante.

  2. Um desses sites registra apenas os últimos 30 dias de transações antes de desaparecer, e eu quero um registro permanente, no caso de 30 dias entre o login.

por J. Win. 28.11.2017 / 03:26

3 respostas

1

Você provavelmente seria melhor fazer esse aplicativo sozinho. Aqui está um excelente ponto de partida: screen-scraping-in-c-using-webclient

    
por 28.11.2017 / 03:39
1

Não sei se você é um programador ou não, mas mesmo que não seja, peça a alguém para fazer o que eu sugiro.

O Linux tem algo chamado de trabalho cron. Estas são tarefas pré-programadas que podem ser configuradas para fazer alguma coisa.

Use essas tarefas agendadas para executar um script PHP que faça o seguinte.

Codifique o script PHP para acessar a página da Web que você precisa acessar. Em seguida, peça ao script PHP para obter o código HTML da página da Web usando alguma função como file_get_contents ().

Agora codifique-o para classificar os dados e armazenar os dados relevantes para você. Você pode fazer isso iniciando o armazenamento de dados após uma determinada palavra-chave, como o título dos dados necessários, e parar de armazenar dados quando encontrar outra palavra-chave, como o título do próximo tópico.

Espero que isso ajude

    
por 28.11.2017 / 03:40
0

Você pode usar o Explorer off-line . Tem versão pro, mas a versão gratuita pode fazer um trabalho bonito.

    
por 28.11.2017 / 03:47