Além do SeleniumRC, existem outras boas ferramentas que podem buscar páginas da Web, incluindo conteúdo pós-pintado por JavaScript?

8

Uma das principais falhas curlé que cada vez mais páginas da web estão tendo seu conteúdo principal pintado por uma resposta AJAX JavaScript que ocorre após a resposta HTTP inicial. curlnunca capta esse conteúdo pós-pintado.

Portanto, para buscar esses tipos de páginas da Web na linha de comando, fui reduzido a escrever scripts em Ruby que levam o SeleniumRC a iniciar uma instância do Firefox e, em seguida, retornar o HTML de origem após a conclusão dessas chamadas AJAX.

Seria muito melhor ter uma solução de linha de comando mais enxuta para esse tipo de problema. Alguém sabe de algum?

dan
fonte
Ninguém sugeriu mais nada . Alguém aqui tem experiência em automatizar algumas tarefas em aplicativos da Web usando curl? , mas essa pergunta não estava perguntando especificamente sobre como raspar o Javascript.
Gilles 'SO- stop be evil'

Respostas:

2

Recentemente, comecei a usar o WebDriver do Selenium 2 em Java. Existe um driver chamado HtmlUnitDriver que suporta totalmente JavaScript, mas não inicia um navegador real.

Não é uma solução leve, mas faz o trabalho.

Eu projetei o código para executar a partir da linha de comando e salvar os dados da Web em arquivos.

Michael Gantz
fonte
2

Você já considerou Watir?

http://watir.com/

Quando você adiciona o pacote, pode executá-lo como um arquivo autônomo ou a partir de irblinha por linha depois include 'watir-webdriver'. Eu achei mais responsivo do que selenium-webdriver, mas sem a GUI de gravação de teste para ajudar a elaborar condições de teste complexas.

Rogue_Leader
fonte