Estou procurando uma maneira de pegar todos os links indexados pelo Google e exportá-los para um arquivo CSV. Recentemente, tive muito mais páginas indexadas pelo Google do que realmente tenho e quero descobrir de onde todas essas páginas vêm, sem precisar visualizar cada página de resultado de pesquisa.
seo
google
search-results
Lee
fonte
fonte
Respostas:
Infelizmente, não há como obter uma lista completa de todas as páginas indexadas no Google. Até a solução do milo5b recebe apenas 1.000 URLs.
Parece que você tem alguns problemas de conteúdo duplicado. Nas Ferramentas do Google para webmasters, verifique Saúde> Status do índice e ele mostrará um total acumulado de páginas indexadas ao longo do tempo. Se o gráfico der um grande salto em um ponto, você poderá descobrir se uma alteração específica no seu site provocou o salto.
Você também pode tentar usar as Ferramentas para webmasters do Bing . Eles têm um Index Explorer que pode ajudá-lo a encontrar os URLs. As aranhas dos mecanismos de pesquisa são bastante semelhantes; portanto, se o Google encontrou esses links, o Bing provavelmente também.
Eu pensei que o Bing tinha uma maneira de exportar a maioria dos seus dados, mas não consigo encontrá-los em um relance superficial. Existe uma API, então você provavelmente poderia usá-la para extrair tudo.
fonte
Acabei pesquisando a subpasta problemática através da pesquisa do site: domain.com/foo/bar/, mas na minha pesquisa encontrei um método para obter os resultados da pesquisa em um arquivo excel.
Abra uma planilha do Google Docs e use esta fórmula:
Somente os 100 primeiros resultados serão obtidos, mas você poderá usá-lo novamente para obter os próximos 100. Basta alterar a variável de início:
Isso fornecerá apenas 1000 resultados, conforme mencionado anteriormente pelo DisgruntledGoat, mas a fórmula pode ser alterada para fornecer links de subdiretórios específicos:
fonte
Você pode escrever um script que analise a SERP do Google (por exemplo, PHP + Curl) e armazene cada link em um arquivo CSV. Cuidado para que seu script se comporte como humano, porque o Google pode banir seu IP dos resultados de pesquisa por algumas horas se você abusar disso.
fonte