De onde vem o parâmetro da URL "? Chocaid = 397"?

9

Nas Ferramentas do Google para webmasters, notei que minha página inicial estava indexada duas vezes:

  • example.com/
  • example.com/?chocaid=397

Eu sei que eu poderia corrigir isso com o uso do tipo de link canonical, mas me pergunto: De onde vem esse parâmetro?

Existem vários sites que têm páginas indexadas com esse mesmo parâmetro / valor: https://duckduckgo.com/?q=chocaid%3D397 .

Procurei semelhanças entre esses sites. mas não conseguiu encontrar uma conclusão: geralmente é a primeira página, mas não em todos os casos. Alguns são NSFW, mas não todos. Quando o URL de um domínio possui esse parâmetro, geralmente outros subdomínios do mesmo domínio também o possuem.

Exemplos

Entrada da Wikipedia

insira a descrição da imagem aqui

Microsoft Codeplex

insira a descrição da imagem aqui

unor
fonte
Nas Ferramentas do Google para webmasters (ou nos registros de referência), há alguma indicação sobre qual página pode estar vinculando a este URL?
MrWhite
@ w3d: não tenho acesso a nenhum registro. No GWT, ele foi listado em " Melhorias de HTML " → "títulos de página repetidos". Por isso, receio que não consiga obter nenhuma informação de referência.
unor 14/11/12
Eu me perguntei se havia algo em Tráfego> Links para o seu site> Seu conteúdo mais vinculado> Mais (para obter todas as páginas vinculadas). Para ?chocaid=397ser indexado, presumivelmente algo está vinculado a ele para o Google encontrar o link em primeiro lugar?
MrWhite
@ w3d: Ah, entendo. Infelizmente, ainda faltam dados para este relatório (provavelmente porque estou usando o GWT apenas por alguns dias).
unor 14/11/12
Não tenho certeza se isso ajuda, mas o número 397 tem algo a ver com hashes (veja aqui e aqui ). Não tenho certeza se isso tem alguma coisa a ver com essa pergunta, mas ?chocaid=397poderia ser algum tipo de tentativa de mexer com hashes (não sei muito sobre isso, então não tenho certeza disso). Além disso, esta é uma ótima pergunta.

Respostas:

1

Quão novo é o seu domínio? Pode muito bem ser uma consulta popular no domínio antigo e, portanto, você ainda está recebendo "visitantes". Isso mapeia para uma página válida ou para um 404? Se você estiver recebendo muitos acessos por lá e for um 404, eu o remapearia (use um .htaccess) na sua página inicial ou algo assim.

Kyros
fonte
11
Ainda não notei visitantes; Vi a página indexada pelo Google. Ele é mapeado para a mesma página inicial (como se o parâmetro fosse omitido). Eu sei que poderia redirecioná-lo ou usá-lo canonical, mas esta pergunta é mais sobre a origem desse parâmetro.
unor 18/11/12
2
Mas isso não explica por que o mesmo parâmetro de URL aparece nos resultados da pesquisa para muitos outros domínios.
MrWhite
1

Pode ser o Googlebot tentando acessar o jQuery / Javascript e rastrear tudo o que pode. Houve uma postagem recente aqui de alguém pedindo ajuda porque o Googlebot estava rastreando URLs inválidos em seu site. John M respondeu sobre como o Googlebot pode estar procurando mais URLs para rastrear a partir de scripts em seu site. Ele trabalha para as Ferramentas do Google para webmasters. Você praticamente respondeu sua própria pergunta definindo a etiqueta canônica.

Anagio
fonte
1

Embora eu não tenha uma resposta definitiva, há algumas coisas que encontrei ao analisar isso que podem ajudar a reduzi-lo:

  • Os links também aparecem no Bing e Yahoo, por isso não tem nada a ver com o Google.
  • Eles aparecem em wikis, blogs do Tumblr, blogs do Wordpress e outros sites e, portanto, não serão adicionados por meio de uma exploração em nenhum software específico.
  • Eles aparecem em alguns sites Tumblr de baixa qualidade e, portanto, é improvável que esses anúncios tenham sido veiculados. Da mesma forma, é improvável que os artigos da Wikipedia sejam promovidos por meio de anúncios.

Meu melhor palpite é que existe / existe algum site de raspador que adiciona esse URL a todos os links encontrados. Certamente, os links externos parecem ser a explicação mais provável de onde eles vêm, e os diretórios são improváveis ​​devido ao fato de serem adicionados a páginas bastante aleatórias.

RichardB
fonte
0

Pode ser de um provedor de anúncios que você tenha, tenho o mesmo problema e o único local possível de origem é de um provedor que injeta algum malware através dos códigos javascript.

Raymund
fonte
Você tem uma fonte / prova disso? Isso significaria que a Wikipedia está infectada por isso, pois há algumas páginas da Wikipedia indexadas com esse parâmetro.
unor
Sim, porque eu tenho um blog que o Google bloqueou por causa disso e depois de remover os anúncios culpados, eles começaram a remover o bloqueio
Raymund