Nas Ferramentas do Google para webmasters, notei que minha página inicial estava indexada duas vezes:
example.com/
example.com/?chocaid=397
Eu sei que eu poderia corrigir isso com o uso do tipo de link canonical
, mas me pergunto: De onde vem esse parâmetro?
Existem vários sites que têm páginas indexadas com esse mesmo parâmetro / valor: https://duckduckgo.com/?q=chocaid%3D397 .
Procurei semelhanças entre esses sites. mas não conseguiu encontrar uma conclusão: geralmente é a primeira página, mas não em todos os casos. Alguns são NSFW, mas não todos. Quando o URL de um domínio possui esse parâmetro, geralmente outros subdomínios do mesmo domínio também o possuem.
Exemplos
Entrada da Wikipedia
Microsoft Codeplex
url
url-parameters
unor
fonte
fonte
?chocaid=397
ser indexado, presumivelmente algo está vinculado a ele para o Google encontrar o link em primeiro lugar??chocaid=397
poderia ser algum tipo de tentativa de mexer com hashes (não sei muito sobre isso, então não tenho certeza disso). Além disso, esta é uma ótima pergunta.Respostas:
Quão novo é o seu domínio? Pode muito bem ser uma consulta popular no domínio antigo e, portanto, você ainda está recebendo "visitantes". Isso mapeia para uma página válida ou para um 404? Se você estiver recebendo muitos acessos por lá e for um 404, eu o remapearia (use um .htaccess) na sua página inicial ou algo assim.
fonte
canonical
, mas esta pergunta é mais sobre a origem desse parâmetro.Pode ser o Googlebot tentando acessar o jQuery / Javascript e rastrear tudo o que pode. Houve uma postagem recente aqui de alguém pedindo ajuda porque o Googlebot estava rastreando URLs inválidos em seu site. John M respondeu sobre como o Googlebot pode estar procurando mais URLs para rastrear a partir de scripts em seu site. Ele trabalha para as Ferramentas do Google para webmasters. Você praticamente respondeu sua própria pergunta definindo a etiqueta canônica.
fonte
Embora eu não tenha uma resposta definitiva, há algumas coisas que encontrei ao analisar isso que podem ajudar a reduzi-lo:
Meu melhor palpite é que existe / existe algum site de raspador que adiciona esse URL a todos os links encontrados. Certamente, os links externos parecem ser a explicação mais provável de onde eles vêm, e os diretórios são improváveis devido ao fato de serem adicionados a páginas bastante aleatórias.
fonte
Pode ser de um provedor de anúncios que você tenha, tenho o mesmo problema e o único local possível de origem é de um provedor que injeta algum malware através dos códigos javascript.
fonte