Como obtenho uma lista de todos os links indexados?

8

Estou procurando uma maneira de pegar todos os links indexados pelo Google e exportá-los para um arquivo CSV. Recentemente, tive muito mais páginas indexadas pelo Google do que realmente tenho e quero descobrir de onde todas essas páginas vêm, sem precisar visualizar cada página de resultado de pesquisa.

Lee
fonte
De onde você obteve o número de páginas indexadas?
precisa saber é o seguinte
Webmaster do Google e site de pesquisa: domain.com
Lee
2
A única coisa que eu diria é que os dados relatados nas Ferramentas do Google para webmasters (Integridade> Status do índice> Total indexado) serão mais precisos do que os relatados por um site: search.com domain.com. Um site: search sempre retorna um valor muito maior na minha experiência, mas se você percorrer os SERPs, o número real de resultados é menor que o valor "About NNNN results".
precisa saber é o seguinte
Bem, essa página foi a razão pela qual me interessei por isso em primeiro lugar. Em três meses, o número de páginas indexadas passou de 27.000 para 567.000 e quero saber o porquê.
Lee

Respostas:

6

Infelizmente, não há como obter uma lista completa de todas as páginas indexadas no Google. Até a solução do milo5b recebe apenas 1.000 URLs.

Parece que você tem alguns problemas de conteúdo duplicado. Nas Ferramentas do Google para webmasters, verifique Saúde> Status do índice e ele mostrará um total acumulado de páginas indexadas ao longo do tempo. Se o gráfico der um grande salto em um ponto, você poderá descobrir se uma alteração específica no seu site provocou o salto.

Você também pode tentar usar as Ferramentas para webmasters do Bing . Eles têm um Index Explorer que pode ajudá-lo a encontrar os URLs. As aranhas dos mecanismos de pesquisa são bastante semelhantes; portanto, se o Google encontrou esses links, o Bing provavelmente também.

Eu pensei que o Bing tinha uma maneira de exportar a maioria dos seus dados, mas não consigo encontrá-los em um relance superficial. Existe uma API, então você provavelmente poderia usá-la para extrair tudo.

DisgruntledGoat
fonte
Obrigado pela sugestão do Bing, mas eles tinham apenas 9.000 páginas indexadas e tenho certeza de que não são os links que eu precisava.
Lee
8

Acabei pesquisando a subpasta problemática através da pesquisa do site: domain.com/foo/bar/, mas na minha pesquisa encontrei um método para obter os resultados da pesquisa em um arquivo excel.

Abra uma planilha do Google Docs e use esta fórmula:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")

Somente os 100 primeiros resultados serão obtidos, mas você poderá usá-lo novamente para obter os próximos 100. Basta alterar a variável de início:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")

Isso fornecerá apenas 1000 resultados, conforme mencionado anteriormente pelo DisgruntledGoat, mas a fórmula pode ser alterada para fornecer links de subdiretórios específicos:

= importXml ("www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1"; "// cite")

Lee
fonte
Ótima dica com o Google Docs. Apenas imaginando qual era o problema real em relação às páginas indexadas extras - era conteúdo duplicado?
MrWhite
11
Rastreei até o vBulletin, um software de fórum que estamos usando. Eles adicionaram um novo recurso chamado fluxo de atividades e foram adicionados à seção de usuários. Portanto, todo usuário não teria apenas páginas de sua própria atividade em seu perfil, mas também toda a atividade de todos os amigos que possui. No topo do Google estava indexando páginas de atividades em branco porque o vBulletin não retornaria um 404. Acabei não indexando a seção inteira.
Lee
ImportXML só funciona corretamente com as velhas folhas que podem ser ativadas com este link: g.co/oldsheets
i.amniels
2

Você pode escrever um script que analise a SERP do Google (por exemplo, PHP + Curl) e armazene cada link em um arquivo CSV. Cuidado para que seu script se comporte como humano, porque o Google pode banir seu IP dos resultados de pesquisa por algumas horas se você abusar disso.

milo5b
fonte