Como faço para impedir que os erros do Soft 404 se acumulem na página "Sem resultados"?

9

Recentemente, notei que tenho uma lista crescente de erros do Soft 404 nas Ferramentas do Google para webmasters. Eles são todos para páginas de resultados de pesquisa geradas dinamicamente que relatam "Nenhuma correspondência encontrada".

Eu não entendo o que o Google quer dizer com suave 404 e por que eles estão relatando que para estas páginas. Então eu adicionei <meta name="robots" content="noindex">a estas páginas.

No entanto, o Google ainda está relatando novos erros do Soft 404 para páginas que usam a metatag noindex .

Por que o Google relata algum erro para uma página que eu disse a eles para não indexar?

O problema é que, com todos esses erros indesejados, não consigo ver se existem problemas reais que precisam ser corrigidos.

Alguns disseram que essas páginas devem retornar um código de status 404. Mas isso apenas muda o problema para a guia erros 404. Além disso, o Google retorna o código de status 200 para a página sem resultados .

Não quero bloquear o acesso ao robots.txt porque quero que os links dessas páginas sejam seguidos e que o Google veja a metatag noindex . Além disso, não existe um padrão que eu possa usar para bloqueá-los.

O Google encontrou esses URLs em primeiro lugar porque o conteúdo existia, mas foi excluído. Não consigo retornar um código de status 410, porque meu código PHP não tem como saber o motivo pelo qual nenhum resultado foi encontrado.

Há algo que eu possa fazer para facilitar a visualização dos problemas reais?

toxalote
fonte
Como o Google encontra esses URLs de pesquisa? Você os está ligando de algum lugar?
usar o seguinte
Veja a pergunta seguinte: webmasters.stackexchange.com/q/55624/33777
toxalot
@DisgruntledGoat, já vi isso em muitos dos meus sites. O Googlebot recebeu a capacidade de fazer pesquisas. Não tenho muita certeza se esse era realmente o problema. Mas nunca consegui encontrar outra fonte para suas pesquisas estranhas .
Alexis Wilke

Respostas:

7

Você deve impedir o Google de rastrear páginas de pesquisa no site. O Google não deseja rastrear sua pesquisa no site . Aqui está a postagem no blog de Matt Cutts do Google sobre o problema: Resultados da pesquisa nos resultados de pesquisa de Matt Cutts em 10 de março de 2007 . O Google agora penaliza ativamente sites que permitem que seus resultados de pesquisa sejam rastreados e apareçam nos SERPs do Google. Ao permitir que o Googlebot rastreie suas páginas de resultados de pesquisa, você está arriscando todo o seu tráfego de referência do Google. Um truque favorito de um revisor do Google é usar a pesquisa no site para termos de spam como "Viagra". Quando virem uma página rastreável como resultado (mesmo que não seja encontrado nenhum resultado para o Viagra), eles aplicarão uma penalidade manual contra o seu site como spam.

Você deve colocar sua pesquisa no site robots.txt. Apenas verifique se o Googlebot ainda pode rastrear suas páginas de conteúdo. Você irá parar de receber novos erros 404 soft relatados.


Um grande número de erros 404 (mesmo erros leves 404) não prejudica a classificação do seu site. O Google relata erros em qualquer página que eles possam encontrar e rastrear, se você deseja ou não indexá-lo e se você vincula ou não a ele. Eles fazem isso porque os relatórios de erro são exclusivamente para seu benefício e consideram que você deve ser totalmente informado.

Aqui está o que John Mueller, do Google, tem a dizer sobre isso :

  1. Os erros 404 em URLs inválidos não prejudicam a indexação ou a classificação do seu site de forma alguma. Não importa se existem 100 ou 10 milhões, eles não prejudicarão a classificação do seu site. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. Em alguns casos, os erros de rastreamento podem resultar de um problema estrutural legítimo no seu site ou no CMS. Como você conta? Verifique novamente a origem do erro de rastreamento. Se houver um link quebrado no seu site, no HTML estático da sua página, vale sempre a pena corrigi-lo. (obrigado + Martino Mosna)
  3. E os URLs descolados que estão "claramente quebrados?" Quando nossos algoritmos gostam do seu site, eles podem tentar encontrar um conteúdo melhor, por exemplo, tentando descobrir novos URLs em JavaScript. Se tentarmos esses "URLs" e encontrarmos um 404, isso é ótimo e esperado. Só não queremos perder nada de importante (insira aqui o meme excessivamente anexado do Googlebot). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. Você não precisa corrigir erros de rastreamento nas Ferramentas do Google para webmasters. O recurso "marcar como fixo" serve apenas para ajudá-lo, se você deseja acompanhar o seu progresso lá; ele não altera nada em nosso pipeline de pesquisa na web, portanto, fique à vontade para ignorá-lo, se você não precisar. http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. Listamos os erros de rastreamento nas Ferramentas do Google para webmasters por prioridade, com base em vários fatores. Se a primeira página de erros de rastreamento for claramente irrelevante, você provavelmente não encontrará erros de rastreamento importantes em outras páginas. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. Não há necessidade de "corrigir" erros de rastreamento no seu site. Encontrar 404 é normal e esperado de um site saudável e bem configurado. Se você tiver um novo URL equivalente, o redirecionamento para ele é uma boa prática. Caso contrário, você não deve criar conteúdo falso, não deve redirecionar para a sua página inicial, o robots.txt não deve permitir esses URLs. Todas essas coisas dificultam o reconhecimento da estrutura do site e o processamento adequado. Chamamos esses erros de "soft 404". http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. Obviamente - se esses erros de rastreamento estão aparecendo nos URLs de seu interesse, talvez URLs no arquivo do Sitemap, é algo que você deve executar imediatamente. Se o Googlebot não conseguir rastrear seus URLs importantes, eles poderão ser excluídos dos nossos resultados de pesquisa e os usuários também não poderão acessá-los.
Stephen Ostermiller
fonte
Não é um 'truque' impedir que páginas de pesquisa inúteis sejam indexadas. Não há nada mais frustrante do que procurar um termo no Google e recuperar uma lista de pesquisas em vez de resultados reais. Então, o Google penaliza esse comportamento. Quando você pensa nisso do ponto de vista do usuário, torna-se óbvio que os resultados transitórios da pesquisa não devem ser indexados, mas as próprias páginas de conteúdo. É por isso que você deve usar algo como um mapa do site para indexadores e usar páginas de pesquisa dinâmica como um atalho apenas para usuários.
precisa saber é o seguinte
Então, por que o Google indexa resultados da Página Amarela e similares?
toxalot
Não acho que o Google queira indexar a maioria dos sites de páginas amarelas, pelo menos não torná-los proeminentes nos resultados da pesquisa. superpages.com tem sua sede na minha rua. Alguns anos atrás, o Google classificou-o de maneira geral. De repente, eu estava entrevistando os desenvolvedores que procuramos por novos trabalhos.
Stephen Ostermiller
2
@StephenOstermiller Você tem uma referência a onde o Google diz que eles penalizam sites que permitem o rastreamento de páginas de pesquisa? Não consigo encontrar nada sobre isso.
187 alexp
11
Quanto ao Viagra, isso não é bom para mim. Meu site rastreia litígios e houve muitas disputas legais reais sobre as patentes envolvidas com o Viagra. Como eles evitam esses falsos positivos?
speedplane