Há alguma boa ferramenta além do SeleniumRC que possa buscar páginas da Web, incluindo conteúdo pós-pintado por JavaScript?

8

Uma grande falha de curl é que mais e mais páginas estão tendo seu conteúdo principal pintado por uma resposta JavaScript AJAX que ocorre após a resposta HTTP inicial. curl nunca pega esse conteúdo pós-pintado.

Portanto, para buscar esses tipos de páginas da Web a partir da linha de comando, fui reduzido a escrever scripts em Ruby que direcionam o SeleniumRC para iniciar uma instância do Firefox e retornar o HTML de origem depois que essas chamadas AJAX foram concluídas. p>

Seria muito melhor ter uma solução de linha de comando mais enxuta para esse tipo de problema. Alguém sabe de algum?

    
por dan 28.04.2011 / 14:15

2 respostas

2

Eu comecei recentemente a usar o WebDriver do Selenium 2 em Java. Existe um driver chamado HtmlUnitDriver que suporta totalmente o JavaScript, mas não ativa um navegador real.

Não é uma solução leve, mas faz o trabalho.

Eu projetei o código para ser executado a partir da linha de comando e salvar os dados da web em arquivos.

    
por 19.05.2011 / 14:50
2

Você já pensou em Watir?

link

Quando você adicionar o pacote, poderá executá-lo como um arquivo autônomo ou de irb , linha por linha, após include 'watir-webdriver' . Descobri que é mais responsivo do que selenium-webdriver , mas sem a GUI de gravação de teste para ajudar a resolver condições de teste complexas.

    
por 21.11.2011 / 13:50