Por que o Google parou de indexar páginas em nosso sitemap.xml?

18

Estamos vendo algumas páginas que existem no nosso, sitemap.xmlmas estão inexplicavelmente ausentes do índice de pesquisa pública do Google.

Você não pode baixar /superuser//sitemap.xml - protegemos este arquivo porque houve problemas com ele no passado - mas o googlebot pode. Verificamos através das Ferramentas do Google para webmasters que o sitemap.xmlarquivo foi baixado hoje e está classificado como OK sem erros (marca de seleção verde).

texto alternativo

O sitemap.xmlcontém uma lista das últimas 50.000 perguntas em nosso site que foram feitas. Por exemplo, esta pergunta ...

/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links

... existe no as sitemap.xml...

<url>
<loc>/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

A pesquisa de "Como ver o final de uma longa cadeia de links simbólicos" fornece apenas um resultado ao questionhub.com, que está raspando nossos dados (um problema totalmente diferente).

Você pode aumentar o número da contagem de perguntas e fazer uma pesquisa exata pelo título da pergunta e verá esse padrão persistir.

Esses URLs estão no sitemap.xml, mas não estão aparecendo no índice do Google - e, no entanto, são exibidos em sites que raspam os dados de nossos criativos comuns. Por que isso seria?

Michael Pryor
fonte
5
Você sempre pode perguntar nos fóruns centrais do webmaster do google. google.com/support/forum/p/Webmasters?hl=en
Alex Black
Algo está definitivamente errado. ESTA pergunta já está indexada no Google, mas a pergunta vinculada no superusuário AINDA não aparece no índice.
Michael Pryor
Jeff pode pensar em perguntar a Matt Cutts. Eu os vi conversando algumas vezes no Twitter. Ele geralmente está muito disposto a ajudar.
Virtuosi Media
3
FWIW No momento, estamos vendo alguns problemas com a indexação de novo conteúdo em alguns sites. Há um tópico em nossos Fóruns de Ajuda em google.com/support/forum/p/Webmasters/… sobre isso. O URL que você mencionou parece ser afetado. Eu imagino que isso será resolvido em breve, mas não há prazo de correção disponível. Obrigado pela sua paciência.
John Mueller
11
Parece que isso foi resolvido agora :-). Tentei algumas das novas perguntas do site e todas foram indexadas. Woot!
John Mueller

Respostas:

10

Parece que o Google estava com alguns problemas técnicos de rastreamento esta semana, que parecem muito com o que estávamos enfrentando:

http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing-problems-53701

Ninguém parece estar imune a um problema de indexação do Google que incomoda muitos proprietários de sites. Blogs e sites, grandes e pequenos, não estão sendo indexados tão rapidamente quanto normalmente - se estão sendo indexados.

...

John, do Google, respondeu ao tópico nos fóruns para webmasters, dizendo:

Só para esclarecer, os problemas deste segmento, que revi em detalhes, não se devem a mudanças em nossas políticas ou em nossos algoritmos; devido a um problema técnico do nosso lado que será resolvido visivelmente o mais rápido possível (embora possa levar alguns dias para ser visível para todos os sites)

Jeff Atwood
fonte
7

O Google não faz nenhuma oferta ou garante que as páginas em um sitemap serão indexadas.

Minha experiência foi que uma página precisa ser vinculada (a partir de uma página de alguma autoridade) para aparecer. Essa página / pergunta está vinculada direta ou indiretamente a partir de uma página com alguma autoridade?

Por exemplo, se a página inicial do superuser.com (que provavelmente possui muitos inlinks) vinculou diretamente a essa pergunta ou indiretamente a ela através de várias outras páginas, você pode esperar que ela seja indexada.

Do google:

O Google não garante que rastrearemos ou indexaremos todos os seus URLs. No entanto, usamos os dados no seu Sitemap para aprender sobre a estrutura do seu site, o que nos permitirá melhorar nossa programação de rastreadores e realizar um trabalho melhor ao rastrear seu site no futuro. Na maioria dos casos, os webmasters se beneficiarão com o envio do Sitemap e, em nenhum caso, você será penalizado por isso.

http://www.google.com/support/webmasters/bin/answer.py?hl=pt_PT&answer=156184

Alex Black
fonte
4
O superusuário deve ter links e relações públicas suficientes para obter essas páginas indexadas com ou sem um mapa do site. E páginas menores são listadas o tempo todo. De fato, eles compõem a maioria do índice. Eu suspeito que outra coisa é a culpada.
John Conde
Concordado, o site tem muito PR e inlinks. Mas, existe uma chance de a página em questão não ter inlinks? Se superuser.com (por acaso) não tiver um link para a página, o que isso diz ao Google? diz que a página não é importante.
Alex Black
2
A página foi definitivamente vinculada a partir da primeira página e continua sendo vinculada a partir de várias outras páginas. Os sites SE são muito pesados ​​com links cruzados.
Kevin Montrose
11
ontem, um dos meus hits para uma pergunta de teste foi a página inicial do superuser.com - com o URL de destino visível, mesmo no cache do Google! E, no entanto, a pergunta em si não foi indexada. Muito estranho.
Jeff Atwood
2
absolutamente - clique na guia HOT na página inicial ou na guia SEMANALMENTE ou MENSALMENTE. Bem ali ..
Jeff Atwood
3

Eu acho que o Google pode estar tendo dificuldade para indexar suas páginas da Web, 50.000 é muito. Então, minha sugestão seria dividir o mapa do site em partes como essa

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

Se você quebrar, terá mais sorte de ter esses 50.000 URLs indexados.

Sitemaps.org explicação do problema

Você pode fornecer vários arquivos de Sitemap, mas cada arquivo de Sitemap fornecido não deve ter mais que 50.000 URLs e não deve ter mais que 10 MB (10.485.760 bytes). Se desejar, você pode compactar os arquivos do Sitemap usando o gzip para reduzir seu requisito de largura de banda; no entanto, o arquivo do sitemap, uma vez descompactado, não deve exceder 10 MB. Se você deseja listar mais de 50.000 URLs, deve criar vários arquivos de Sitemap.

Se você fornecer vários Sitemaps, liste cada arquivo de Sitemap em um arquivo de índice de Sitemap. Os arquivos de índice de Sitemap não podem listar mais de 50.000 Sitemaps e não devem ter mais de 10 MB (10.485.760 bytes) e podem ser compactados. Você pode ter mais de um arquivo de índice de Sitemap. O formato XML de um arquivo de índice de Sitemap é muito semelhante ao formato XML de um arquivo de Sitemap.

http://sitemaps.org/protocol.php

Sevki
fonte
2
Sitemaps com 50.000 páginas são muito comuns. De fato, alguém postou recentemente uma captura de tela de sua conta de webmaster mostrando que o Google indexou quase todas as 50.000 dessas páginas. E suspeito que o superusuário é mais popular (por exemplo, tem melhor popularidade de links) do que o outro site.
John Conde
11
"Você tem mais de 50.000 URLs para listar. Esse é o máximo que um Sitemap pode incluir." sitemaps.blogspot.com/2005/08/using-sitemap-index-files.html
Jeff Atwood
11
Se você tiver um mapa do site para cada dia que nunca muda depois que o dia termina, para que o mapa do site não precise ser acessado novamente, eles podem rastrear os links que já indexaram para alterações, para que o Google não precise percorrer 50.000 URLs todos os dias para ver quais são antigas e quais são novas.
Sevki 21/10/10
@sevki, a 50.001ª pergunta mais antiga de ACTIVITY DATE (novas respostas, edições, etc.) nesta data) não estará no mapa do site. Lembre-se de que o superusuário possui apenas 55 mil perguntas no total.
Jeff Atwood
@ Jeff, mas o SO.com tem 1.014.782 e 964.782 não está em um mapa do site, portanto, o google ou o bing não sabem quando foram modificados pela última vez. Isso não aumenta seus rastreamentos. de qualquer forma, não quero ser irritante apenas tentando ajudar, enviei um e-mail com mais alguns detalhes.
Sevki 21/10/10
2

Parece que o Google está afirmando que 46.514 links enviados estão no índice. Poderia ser um problema com (eu odeio dizer), mas com o ranking da página? Os sites de raspagem podem estar fazendo um trabalho melhor com a reticulação etc e serem classificados com uma classificação mais alta. Apenas um pensamento.

Este site de pesquisa : superuser.com Como ver o final de uma longa cadeia de links simbólicos também parece estar buscando seu sitemap.xml corretamente, embora não retorne os resultados esperados.

Dustin Senos
fonte
Esse site de scraping atribui ao superuser.com o autor original (embora eles possam ser mais explícitos), portanto o Google deve saber que eles são os autores originais do conteúdo e ter precedência sobre os sites de scraping.
John Conde
@ John correta, exigimos atribuição com acompanhamento, conforme documentado no blog.stackoverflow.com/2010/08/defending-attribution-required
Jeff Atwood
esse sitemap em cache é "como apareceu em 17 de outubro de 2010 05:40:35 GMT", 4 dias atrás no momento em que escrevo isso, portanto, não há muito. Eu localizei algumas URLs nesse sitemap.xml em cache e elas também existem como páginas de perguntas no google.
Jeff Atwood
@ john, você pode dar um exemplo de como eles atribuem a atribuição. Thx
Greg B
@ Greg, Basta procurar o logotipo do superusuário
John Conde
2

Com esse tipo de coisa, existem muitas respostas em potencial.

Eu começaria perguntando quantas páginas você realmente tem. (você enviou 50.000 URLs por um site rápido: superuser.com mostra 125.000 indexados. Você acha que possui apenas 50K URLs e está enviando todos eles? O Google está encontrando 2-3 cópias de cada página? ou talvez você tenha 1Mil URLs e apenas 12,5 % estão sendo indexados) obter uma visão geral ajuda a direcionar onde procurar problemas.

Se nada parecer errado com a etapa um, eu mudaria para o conteúdo, parece que o QH tem muito mais conteúdo na página e vincula muitos outros "recursos", apesar do fato de todo o conteúdo ser raspado, é possível que o Google considere página mais útil, pois fornece mais recursos / informações ao usuário. Se eles são considerados a autoridade e todo o seu conteúdo é igual ao deles, é possível que o Google não indexe o seu, mesmo que você seja o original.

Se você está convencido de que não é esse o problema, crie alguns links de alta qualidade para ele, escreva esta questão em alguns blogs populares de funcionários ou peça a alguns amigos que escrevam sobre ela, talvez se você tiver amigos de SEO que administram blogs populares, eles escreveriam um estudo de caso sobre isso etc.

Se você obtiver muitos links fortes e ainda assim não for indexado, procure por razões que possam ser penalizadas (na maioria dos casos, esse não será o problema, mas nunca é demais verificar).

Se nada disso funcionar, em 9 vezes em 10, é um simples problema técnico que foi esquecido (exclusão de robôs ou algo semelhante).

Se você ainda não tiver resposta depois de passar por isso, pergunte ao Google e espere que eles recebam uma resposta.

Joshak
fonte
0

A pergunta foi feita ontem - dê uma chance ao googlebot, você não é o único site na Internet que ele precisa rastrear, você sabe :)

Se as perguntas são normalmente indexadas dentro de um dia ou mais, e uma semana se passa e essa ainda não é indexada, então eu posso estar preocupado. Mas certamente não após 1 dia.

Eric Petroelje
fonte
11
Eles geralmente aparecem dentro de uma hora. Então, eu concordo, eu deveria dar um tempo, mas em relação à sua frequência usual ... eu tenho.
Michael Pryor
@ Michael certifique-se de comparar maçãs com maçãs - o Google parece indexar o stackoverflow.com a uma taxa MUITO mais alta do que nossos outros sites.
Jeff Atwood