Como o HTTP 418 é tratado pelo Google e outras pessoas por não ser um erro "real"?

8

Eu queria saber se você sabe como o Google e outros mecanismos de pesquisa tratam um site com código de status HTTP 418 I'm a teapot.

De acordo com este artigo da Wikipedia , ele pode ser usado como um código de erro do cliente (4xx). Eu gostaria de usar esse código de erro para um site de ovos de páscoa, que, no entanto, deve ser encontrado pelos mecanismos de pesquisa.

De acordo com esta postagem de blog de 4 anos , o status 418 será ignorado pelo Google. Você tem alguma informação mais recente sobre este tópico? Como os outros mecanismos de pesquisa reagem no status 418 (principalmente porque é um código 4xx).

ssc-hrep3
fonte

Respostas:

9

Se você usar a ferramenta "Buscar como o Google" no Google Search Console em uma página que retorne o status "418 Sou um bule de chá", simplesmente informará um "Erro" e a indexação não poderá ser solicitada para esta página.

Na captura de tela abaixo, os "Erros" circulados são o resultado da solicitação de uma página que retorna um status 418. Nenhuma informação adicional está disponível neste estágio.

Captura de tela da ferramenta Fetch as Google mostrando erros para 418 páginas

De acordo com meu registro de acesso, o Googlebot e o Search Console visitaram esta página, mas ela ainda não apareceu no índice.

Apenas para esclarecer, esta é uma nova página, não indexada anteriormente. Ele é vinculado a partir de uma página indexada, que também foi reenviada (juntamente com "páginas vinculadas") para indexação - vista na captura de tela acima. Também enviei um sitemap XML que contém esta página (embora a contagem "Indexada" ainda não esteja sendo relatada - VEJA A ATUALIZAÇÃO ABAIXO ). Para ser sincero, não tenho muita esperança - ficaria surpreso se ele fosse indexado. Não só porque é um código 4xx, mas porque é não um código 2xx sucesso.

Normalmente, você pode fazer um teste "Buscar como o Google" e solicitar a indexação da página. Isso geralmente é muito rápido ("instantâneo") para uma única página - mas essa opção não está disponível na página acima.

De acordo com esta postagem de blog de 4 anos, o status 418 será ignorado pelo Google.

Por "ignorado", eles significam que é tratado como um status 200 OK. (O que não é realmente o mesmo que ser "ignorado" no meu livro, a menos que tenha sido literalmente ignorado e o Google não tenha "nada"?) O "problema" dessa publicação no blog é que eles estão testando uma página já indexada. O retorno de um status 4xx não faria necessariamente com que a página caísse do índice, pelo menos por um tempo considerável (dependendo da taxa de rastreamento), embora eles tenham esperado "algumas semanas". Eles também não mencionam os erros de rastreamento relatados nas Ferramentas do Google para webmasters (desde que foram alterados para o Google Search Console).

não é um erro "real"

Ou é? Pode ter sido implementado como uma "piada" no início, no entanto, indiscutivelmente indica um "estado de erro". Eu acho que seria mais contraditório que um código 4xx não fosse tratado como um "estado de erro". E ainda é "atual". O RFC 2324 original de 1998 que definiu esse código de status foi atualizado em 2014 com o RFC 7168 .

A maioria das ferramentas verá o status 418 como um erro. Ou apenas veja 200 como sucesso. O "visualizador de registros Apache" e o "Screaming Frog SEO Spider" certamente veem o código 418 como um erro.

Alguns servidores da Web implementam o código de status 418:

O Stack Exchange ainda usa esse código de status HTTP ao detectar violações de CSRF:

ATUALIZAÇÃO 31-03-2017 (mais de duas semanas depois): a página que retorna um código de status HTTP 418 não é indexada pelo Google. O relatório XML do sitemap no GSC agora mostra que apenas um dos dois URLs enviados no sitemap é indexado (um URL retorna 200 e é indexado, o outro retorna 418 e não é indexado).

Aliás, o GSC levou quase duas semanas para informar sobre o status do índice dos URLs no mapa do site, mas isso não se refere a quando as páginas foram realmente indexadas. Por exemplo, uma página já estava indexada no momento em que o mapa do site foi enviado; no entanto, olhando apenas o relatório do mapa do site, parece que a página foi indexada apenas 13 dias após o envio do mapa do site.

O URL que retorna um 418 agora é relatado como um "Erro de rastreamento" em Rastreamento> Erros de rastreamento e o 418 é declarado como o código de resposta. De acordo com o relatório, isso foi "detectado" em 16/03/2017 (no dia seguinte após o envio da solicitação de índice acima), no entanto, ocorreu algum tempo antes que isso fosse relatado no GSC.

Sr. White
fonte
11
Quem poderia melhorar isso? Ninguém. Felicidades!!
#Rocknoc #
3
Além do status 200, o Google sabe como lidar com códigos de redirecionamento (301, 302, 303, 307, 308). Além desses códigos específicos, eu imaginaria que o Google trata praticamente todo o resto como um "erro".
Stephen Ostermiller
11
Atualização: a página que retorna um 418 não está indexada e o Google agora relata explicitamente isso como um erro de rastreamento. Eu atualizei minha resposta.
MrWhite