Descobri recentemente um novo pacote R para conectar-se à API do LinkedIn. Infelizmente, a API do LinkedIn parece bastante limitada; por exemplo, você só pode obter dados básicos sobre empresas, e isso é desanexado dos dados de indivíduos. Gostaria de obter dados de todos os funcionários de uma determinada empresa, o que você pode fazer manualmente no site, mas não é possível por meio da API.
O import.io seria perfeito se reconhecesse a paginação do LinkedIn (consulte o final da página).
Alguém conhece alguma ferramenta ou técnica de raspagem da Web aplicável ao formato atual do site do LinkedIn, ou maneiras de flexionar a API para realizar análises mais flexíveis? De preferência em R ou baseado na Web, mas certamente aberto a outras abordagens.
fonte
Respostas:
Beautiful Soup foi projetado especificamente para rastreamento e raspagem da Web, mas foi escrito para python e não para R:
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
fonte
Scrapy é uma excelente biblioteca Python que pode ajudá-lo a raspar sites diferentes mais rapidamente e melhorar sua estrutura de código. Nem todos os sites podem ser analisados com ferramentas clássicas, porque eles podem usar a construção dinâmica de conteúdo JS. Para esta tarefa, é melhor usar o Selenium (esta é uma estrutura de teste para sites, mas também uma ótima ferramenta de raspagem da web). Há também um wrapper Python disponível para esta biblioteca. No Google, você pode encontrar alguns truques que podem ajudá-lo a usar o Selenium dentro do Scrapy e tornar seu código claro, organizado e você pode usar ótimas ferramentas para a biblioteca Scrapy .
Eu acho que o Selenium seria um raspador melhor para o Linkedin do que as ferramentas clássicas. Há muito conteúdo javascript e dinâmico. Além disso, se você quiser fazer autenticação na sua conta e raspar todo o conteúdo disponível, terá muitos problemas com a autenticação clássica usando bibliotecas simples como solicitações ou urllib .
fonte
Gosto do rvest em combinação com o plug-in SelectorGadget chrome para selecionar seções relevantes.
Usei o rvest e construí pequenos scripts para paginar nos fóruns:
fonte
Eu também usaria beautifulsoup, se você conhece python. Caso você prefira codificar javascript / JQuery (e você esteja familiarizado com o node.js), consulte o CoffeeScript (confira o tutorial ). Eu já o usei com êxito em várias ocasiões para raspar páginas da web.
fonte
O lxml é uma boa biblioteca de sucateamento da Web em Python. Beautiful Soup é um invólucro sobre lxml. Portanto, o lxml é mais rápido que as sopas raspadas e bonitas e possui uma curva de aprendizado muito mais fácil.
Este é um exemplo de raspador que eu construí com ele para um projeto pessoal, que pode iterar em páginas da web.
fonte
O BeautifulSoup não funciona no LinkedIn. O Scrappy viola as políticas. Octoparse é apenas para Windows. Existe outro caminho? Quero extrair dados de Pessoas Semelhantes para a conta de uma pessoa. Por favor ajude!
fonte
Aqui, compartilho minha experiência bem-sucedida.
O Octoparse é uma ótima ferramenta de raspagem de sites gratuita . Usei-o para raspar dados do Linkedin com êxito e aqui está um tutorial em vídeo detalhado para extrair dados do Linkedin .
fonte