Como raspar tabelas html usando o pacote XML?
Veja, por exemplo, esta página da Wikipedia no time de futebol brasileiro . Gostaria de ler em R e obter a tabela "lista de todos os jogos que o Brasil jogou contra times reconhecidos pela FIFA" como data.frame. Como posso fazer isso?
Respostas:
… Ou uma tentativa mais curta:
a tabela escolhida é a mais longa da página
fonte
Editado para adicionar:
Saída de amostra
fonte
Outra opção usando o Xpath.
Produz este resultado
fonte
O
rvest
junto comxml2
é outro pacote popular para analisar páginas da web html.A sintaxe é mais fácil de usar que o
xml
pacote e, para a maioria das páginas da Web, o pacote fornece todas as opções necessárias.fonte