Raspagem na web do LinkedIn

11

Descobri recentemente um novo pacote R para conectar-se à API do LinkedIn. Infelizmente, a API do LinkedIn parece bastante limitada; por exemplo, você só pode obter dados básicos sobre empresas, e isso é desanexado dos dados de indivíduos. Gostaria de obter dados de todos os funcionários de uma determinada empresa, o que você pode fazer manualmente no site, mas não é possível por meio da API.

O import.io seria perfeito se reconhecesse a paginação do LinkedIn (consulte o final da página).

Alguém conhece alguma ferramenta ou técnica de raspagem da Web aplicável ao formato atual do site do LinkedIn, ou maneiras de flexionar a API para realizar análises mais flexíveis? De preferência em R ou baseado na Web, mas certamente aberto a outras abordagens.

christopherlovell
fonte
2
Web raspagem O LinkedIn é contra seus termos de serviço. Consulte "DOs" e "NÃO" do LinkedIn - NÃO: "Use software, dispositivos, robôs de scripts manuais ou automatizados, outros meios ou processos para acessar," raspar "," rastrear "ou" localizar "os Serviços ou qualquer outro dados ou informações relacionados; "
Brian Spiering

Respostas:

3

Scrapy é uma excelente biblioteca Python que pode ajudá-lo a raspar sites diferentes mais rapidamente e melhorar sua estrutura de código. Nem todos os sites podem ser analisados ​​com ferramentas clássicas, porque eles podem usar a construção dinâmica de conteúdo JS. Para esta tarefa, é melhor usar o Selenium (esta é uma estrutura de teste para sites, mas também uma ótima ferramenta de raspagem da web). Há também um wrapper Python disponível para esta biblioteca. No Google, você pode encontrar alguns truques que podem ajudá-lo a usar o Selenium dentro do Scrapy e tornar seu código claro, organizado e você pode usar ótimas ferramentas para a biblioteca Scrapy .

Eu acho que o Selenium seria um raspador melhor para o Linkedin do que as ferramentas clássicas. Há muito conteúdo javascript e dinâmico. Além disso, se você quiser fazer autenticação na sua conta e raspar todo o conteúdo disponível, terá muitos problemas com a autenticação clássica usando bibliotecas simples como solicitações ou urllib .

itdxer
fonte
1

Gosto do rvest em combinação com o plug-in SelectorGadget chrome para selecionar seções relevantes.

Usei o rvest e construí pequenos scripts para paginar nos fóruns:

  1. Procure o objeto "Página n de m"
  2. Extrair m
  3. Com base na estrutura da página, crie uma lista de links de 1 a m (por exemplo, www.sample.com/page1)
  4. Iterar o raspador pela lista completa de links
Rglish
fonte
0

Eu também usaria beautifulsoup, se você conhece python. Caso você prefira codificar javascript / JQuery (e você esteja familiarizado com o node.js), consulte o CoffeeScript (confira o tutorial ). Eu já o usei com êxito em várias ocasiões para raspar páginas da web.

Hannes
fonte
0

O lxml é uma boa biblioteca de sucateamento da Web em Python. Beautiful Soup é um invólucro sobre lxml. Portanto, o lxml é mais rápido que as sopas raspadas e bonitas e possui uma curva de aprendizado muito mais fácil.

Este é um exemplo de raspador que eu construí com ele para um projeto pessoal, que pode iterar em páginas da web.

Dawny33
fonte
0

O BeautifulSoup não funciona no LinkedIn. O Scrappy viola as políticas. Octoparse é apenas para Windows. Existe outro caminho? Quero extrair dados de Pessoas Semelhantes para a conta de uma pessoa. Por favor ajude!

Chinmay Joshi
fonte
1
Por favor, postar isso como um comentário, ou fazer uma nova pergunta
christopherlovell
Esta é uma informação importante, mas remova a pergunta, se for uma resposta.
Pithikos