Interagindo com a página da web por meio do script?

2

Eu tenho uma conta de e-mail onde acabei com muito (200 000) de mensagens na pasta Spam. Infelizmente, nem tudo é spam - em parte devido a um filtro mal treinado e em parte devido aos resumos da lista de e-mail contendo uma ou duas mensagens de muitos que acionam o filtro.

Eu gostaria de baixar essas mensagens, mas o POP não pode acessar nenhuma pasta, mas o INBOX e o IMAP chocam (travam no servidor) por causa do grande número de mensagens.

Eu tenho que usar o webmail para mover e-mails do Spam para o INBOX - fazendo "esperar até que a página seja carregada", "marcar todas as mensagens", "Selecionar INBOX", "Mover mensagens marcadas para escolhidas pasta "... ... e repita! Mas com apenas 500 ou 1000 mensagens por página, mover 100 000 mensagens exigirá muito trabalho.

Existe uma boa maneira de fazer isso automaticamente?

Pensei em usar expect com lynx ou links , mas a interface de webmail usa algum JavaScript, então duvido que funcione ... wget is (AFAIK) não é adequado para algo assim ... Existe talvez uma maneira de "controle remoto" chrome , firefox ou opera (ou X propriamente dito) através de scripts?

O que eu realmente estou procurando (eu acho), é algum tipo de "navegador virtual" que funciona como um navegador normal, mas que é controlado por scripts ...

    
por Baard Kopperud 29.09.2014 / 16:05

1 resposta

1

Se a interface web usa javascript e não pode funcionar sem ela, então você deve usar o selênio diretamente na sua linguagem de programação preferida, ( ou se você estiver usando Python, você também pode usar uma camada de abstração como lasca .

Está se tornando menos comum sites que exigem que o javascript funcione sem o JavaScript. Você pode, no entanto, verificar isso facilmente, desligando o javascript do seu navegador temporariamente. Se javascript não é necessário, mas os cookies são, então um mecanismo menos pesado como o selênio pode ser usado (por exemplo, python + mecanizar Além de URLs, você geralmente tem que lidar com cookies de login para solicitação e de solicitação para solicitação, trivial em selênio (e mecanizar) não é tão fácil quando se usa wget etc.

Uma alternativa seria que, se você pudesse baixar sua caixa de entrada sem problemas, mover as mensagens da sua caixa de entrada para algum armazenamento temporário, mover todo o conteúdo da pasta SPAM para sua caixa de entrada e baixar a caixa de entrada, limpá-la e restaurar o INBOX do armazenamento temporário.

    
por 29.09.2014 / 18:14

Tags