Por que as Ferramentas do Google para webmasters estão rastreando URLS inválidos e mostrando 500 erros?

11

As ferramentas do Google para webmasters estão relatando erros de 12k + 500. Eeek!

Nenhum dos URLS é válido - todos eles contêm www.youtube.com. Primeiro, por que o Google está rastreando esses URLS se eles não existem? Forneci um mapa do site e, é claro, eles não estão no sitemap.

Não tenho um robots.txt bloqueando nada. Verifiquei se há redirecionamentos inválidos - nenhum e verifique se há tags não fechadas ou algo que jogaria www.youtube.com no URL por acidente - nenhum.

Em todos os 'links de', o URL de referência também é um URL ruim, com www.youtube.com. As Ferramentas do Google não relatam malware e não consigo verificar os logs do servidor porque o host não me dá acesso.

Realmente preso !! Todas as idéias apreciadas!

Amos Kane
fonte
Você pode postar alguns exemplos, por favor?
amigos estão dizendo sobre iFish
O seu site é um Wordpress ou outra plataforma de blog?
Ubique
3
Se você está vendo HTTP 500 erros (erros de servidor) para URLs inválidos, você provavelmente tem um problema na sua configuração - URLs inválidos deve retornar 404 ou 410.
John Mueller

Respostas:

8

Há (pelo menos) dois motivos comuns pelos quais URLs estranhos e mutilados podem aparecer como erros de rastreamento nas Ferramentas do Google para webmasters.

A primeira possibilidade é que alguém tenha copiado suas páginas (ou outras páginas vinculadas à sua) e confundido os links no processo. Isso acontece com mais frequência do que você imagina; veja, por exemplo, a sexta pergunta nesta postagem no blog do Google para webmasters .

A outra possibilidade é que o próprio Googlebot esteja tentando seguir o que pensa ser links JavaScript e fazendo uma bagunça . Em geral, você pode diferenciar esses dois casos visitando a página de referência (que deveria existir e ser acessível, se o Google conseguiu rastrear) e procurando o nome da página de destino em sua origem.

De qualquer forma, existem basicamente duas coisas que você pode fazer: simplesmente ignore os links ou crie algumas regras de reescrita para tentar mapear os URLs quebrados em outros que funcionem. Se você puder ver um padrão óbvio nos URLs e estiver familiarizado com os regexps, recomendo a última abordagem - ele limpará sua lista de erros de rastreamento e talvez até ofereça um pequeno e bastante brega, mas real, aumento no PageRank .

Uma terceira opção, se você achar que alguém está copiando seu conteúdo sem permissão, é tentar excluí-lo . Você pode até enviar uma reclamação (e / ou uma solicitação formal de remoção) ao provedor de hospedagem, se você achar que isso é justificado. Obviamente, considerando que eles aparentemente estão vinculando de volta ao seu site, você pode não necessariamente achar que vale o esforço.

Ilmari Karonen
fonte
0

O Google está indexando o site, não imediatamente todas as páginas de uma vez.

Páginas de indexação do Google em primeiro lugar, nível mais alto. Depois de alguns dias, o Google tenta indexar mais profundamente - o segundo nível de páginas (as páginas em que o Google encontrou links no primeiro nível) e assim por diante. Dessa maneira, o Google tenta indexar cada página no site. Então, o Google cria uma árvore hierárquica de links e o Google sabe quais páginas estão vinculadas a cada página.

Depois, o Google chegou a cada página indexada e verifica se o conteúdo da página foi alterado. O intervalo de indexação para cada página e cada site é baseado em muitos fatores.

Portanto, se você excluir alguma página e atualizar todos os links para esta página em todas as outras páginas - o Google não a saberá imediatamente e tentará indexar a página excluída, pois está planejado indexar essa página em sua programação.

webvitaly
fonte