Eu codifico muitos analisadores. Até agora, eu estava usando o navegador sem cabeça HtmlUnit para análise e automação do navegador.
Agora, quero separar as duas tarefas.
Como 80% do meu trabalho envolve apenas a análise, eu quero usar um analisador HTML leve, porque leva muito tempo no HtmlUnit para carregar uma página primeiro, depois obter a fonte e analisá-la.
Quero saber qual analisador de HTML é o melhor. O analisador seria melhor se estiver próximo ao analisador HtmlUnit.
EDITAR:
Na melhor das hipóteses, quero pelo menos os seguintes recursos:
- Rapidez
- Facilidade para localizar qualquer HtmlElement por seu "id" ou "nome" ou "tipo de tag".
Seria bom para mim se não limpar o código HTML sujo. Não preciso limpar nenhuma fonte HTML. Eu só preciso de uma maneira mais fácil de percorrer os HtmlElements e coletar dados deles.
java
html
parsing
html-parsing
web-scraping
Yatendra Goel
fonte
fonte
Respostas:
Auto-plug: Acabei de lançar um novo analisador Java HTML: jsoup . Menciono aqui porque acho que fará o que você procura.
Seu truque é uma sintaxe de seletor de CSS para encontrar elementos, por exemplo:
Consulte o javadoc do seletor para obter mais informações.
Este é um projeto novo, portanto, todas as idéias de melhoria são muito bem-vindas!
fonte
O melhor que eu vi até agora é o HtmlCleaner :
Com o HtmlCleaner, você pode localizar qualquer elemento usando o XPath.
Para outros analisadores html, consulte esta questão SO .
fonte
Similar rules that the most of web browsers use
- Isso não é muito convincenteSugiro o analisador do Validator.nu , com base no algoritmo de análise HTML5. É o analisador usado no Mozilla de 03/05/2010
fonte