O que está adicionando caracteres de sapo aos meus URLs?

8

Ao navegar na seção "Erros de rastreamento" das Ferramentas do Google para webmasters, descobri um conjunto de 500 erros muito estranhos em referência ao meu site:

URLs mal-humorados

Consegui rastrear o que esses caracteres são e, aparentemente, eles são os dois primeiros na área de uso privado Unicode . Por acaso, minha fonte os mapeou para um sapo usando uma coroa minúscula e um símbolo que se assemelha ao número 7.

Esses símbolos aparecem apenas nos endereços de arquivos não HTML; documentos de escritório, PDFs etc. - mas eles não aparecem apenas no nome do arquivo.

De onde vêm esses símbolos? Existe alguma maneira de me livrar deles para que o Google possa rastrear corretamente meu site?

Algumas informações básicas:

  • Usando o servidor Web executando o WS2K3 com IIS6 e PHP 5.3.8
  • A codificação do site é UTF-8
  • Esses símbolos não aparecem na página ou na fonte
Jacob Hume
fonte
6
Agora há algo que você não vê todos os dias.
John Conde
@ John Conde: Conte-me sobre isso. Esta não é uma questão de segunda-feira de manhã. : P
Jacob Hume
eles aparecem em todos os arquivos não-html ou apenas em alguns?
Froderik
@froderik Apenas um punhado e os documentos afetados foram publicados por diferentes desenvolvedores em diferentes áreas do site.
Jacob Hume

Respostas:

4

É apenas um palpite, mas uma possibilidade é que outra pessoa esteja vinculando seus arquivos com algum código quebrado. Sei que sempre que recebi solicitações desonestas aos meus sites, sempre consegui rastreá-lo para o link borked de outra pessoa. (É realmente irritante que as aranhas não incluam cabeçalhos Http-Referer para facilitar a identificação da origem desses URLs).

Peter Taylor
fonte
11
"... as aranhas não incluem cabeçalhos Http-Referer ..." - É verdade, mas as Ferramentas do Google para webmasters incluem relatórios que (geralmente) listam quais sites estão vinculados ao conteúdo em questão.
danlefree
Examinei rapidamente as seções "Links para o seu site" e "Links internos" das Ferramentas do Google para webmasters e não vi nenhum dos caracteres nos 1.000 links exibidos. Ótima idéia!
Jacob Hume