Por que as páginas de indexação do Google estão com? Utm_campaign string de consulta

9

Recentemente, notei que o Google está indexando URLs que contêm argumentos utm_campaign, utm_source e utm_medium query string. Nos resultados, o Google mostra URLs com essas cadeias de consulta em vez do URL canônico:

utm_campaign adicionado ao URL

Entendo que esse poderia ser um problema de 'conteúdo duplicado', mas uso a link rel=canonicaltag em todo o site. Como um exemplo:

[snip]
<meta name="description" content="App store optimization helps discovery and rank on Google Play and the App Store. Publishers can use ASO by following these simple steps."/>
<meta name="robots" content="noodp"/>
<link rel="canonical" href="https://sweetpricing.com/blog/2016/11/app-store-optimization/" />
<meta property="og:locale" content="en_US" />
[snip]

Captura de tela da etiqueta canônica

Minha expectativa é que o Google use o URL canônico para indexação. O que estou fazendo errado?

Brendon
fonte
2
Mesmo sem a tag canônica, o Googlebot geralmente ignora os parâmetros UTM porque sabe que eles são usados ​​apenas para rastreamento. Eu nunca os vi indexados antes, especialmente não com um canônico.
Stephen Ostermiller
4
O FWIW site:stackexchange.com inurl:utm_campaigntambém retorna resultados semelhantes (em uma escala um pouco maior). Observe também que as site:pesquisas geralmente retornam URLs não canônicos nos resultados, que normalmente não são retornados em pesquisas "normais". No entanto, os URLs acima também parecem ser retornados em pesquisas "normais".
MrWhite

Respostas:

3

Analisando seu site como está agora, não tenho muita certeza se este é um problema por mais tempo / atualmente.

O problema não é o vínculo interno no seu site com a inclusão de parâmetros UTM (como outra pergunta sugere).

Parece que algum processo em que você precisa compartilhar o conteúdo do site nas mídias sociais está deixando os parâmetros UTM nos URLs e compartilhando aqueles que, em algum momento, levaram à indexação.

É raro que isso aconteça, mas já aconteceu com muitos outros sites antes. O fato de serem apenas três páginas indexadas com esses parâmetros indica que esse não é um problema sério nem em todo o site.

Aqui estão as etapas que você pode seguir para ajudar a erradicar isso: -

1. Especifique um URL canônico em suas páginas

Você já está fazendo isso e a implementação está correta. Isso garantirá que apenas o URL canônico especificado tenha peso nos mecanismos de pesquisa. Presumivelmente, isso sempre existiu, mas, se não, isso poderia explicar por que existem algumas instâncias antigas de páginas ainda indexadas com parâmetros UTM.

Implementação correta de URLs canônicos

2. Instrua o Google a não indexar os parâmetros UTM no Search Console

Caso alguns URLs estejam sendo indexados com os parâmetros UTM (como o seu caso), o parâmetro do URL deverá aparecer como um detectado na seção 'Rastrear> Parâmetros de URL' do Google Search Console para o seu domínio (veja abaixo).

Parâmetros de URL UTM do Google Search Console

Mesmo que os parâmetros UTM não apareçam, você pode 'Adicionar parâmetro' para criá-los.

Basta selecionar No: Doesn't affect page content (ex: tracks usage)(conhecido como "Parâmetros passivos") e o Google normalmente rastreará apenas um URL com um valor de parâmetro específico .

3 Não permitir os parâmetros de URL no seu robots.txt

Isso impedirá o Google de indexar o conteúdo desses URLs, mas não os URLs reais (eles ainda podem ser exibidos nos resultados da pesquisa, mas omitem a descrição como abaixo).

Página indexada não permitida no robots.txt

Basta adicionar algo como o seguinte para lidar com isso robots.txt:

Disallow: /*?utm=*

Conclusão

As etapas 1 e 2 devem ser executadas como uma questão de precaução e "melhores práticas" de qualquer maneira e a etapa 3, além das etapas 1 e 2, talvez (pois não serão eficazes por si só).

No Google Search Console, também é possível remover (temporariamente) os URLs. Isso é particularmente útil se ainda houver algumas páginas teimosas indexadas, mas você sabe que a origem raiz do problema foi resolvida e esse recurso deve ser suficiente para livrar-se delas de uma vez por todas dos resultados da pesquisa.

Eu não incluí isso como uma etapa acima, pois, apesar de ter pesquisado isso antes, não me lembro se ele suportará URLs com parâmetros [citação necessário]. Uma vez eu soube a resposta, mas minha memória me falha nessa ocasião específica.

Mais leituras sobre a remoção de URLs do Google .

zigojacko
fonte
11
Mas se você impedir que esses URLs sejam rastreados usando robots.txt(nº 3), também não impedirá que essas campanhas sejam rastreadas ? ... E também impedir que a tag canônica na página seja lida (nº 1)?
MrWhite
Concordo com o que o w3dk diz sobre o robots.txt. Se alguma coisa usar noindex: /*?utm=*no robots.txt.
Stephen Ostermiller
2

Parece que você está usando esses links dentro do conteúdo do seu site para vincular páginas.

Para garantir que o Google não indexe, adicione rel="nofollow"esses links ao seu site e bloqueie esses parâmetros do arquivo robots.txt:

Disallow : /*utm_campaign
Nadeem Haddadeen
fonte
Boa captura que eles são usados ​​para links internos. Isso explicaria a diferença da maioria dos sites em que geralmente são usados ​​apenas em links de entrada.
Stephen Ostermiller
Na verdade, os URLs utm_campaign são adicionados pelo Buffer.com - por exemplo, eles se parecem com "utm_source = plus.google.com & utm_campaign = buffer". Acho que não estou usando esses links em nenhum lugar do site.
Brendon
1

Você verificou se o seu URL canônico foi indexado ou não? Se a URL canônica tiver sido indexada, não há com que se preocupar.

Você pode experimentar as Ferramentas do Google para webmasters e alterar como o Google lida com os parâmetros de URL aqui .

muhammad usman
fonte
11
Para alguns URLs, apenas o URL utm_campaign é indexado. Para outras páginas, os dois URLs apareceram no índice. Ontem, usei a ferramenta Buscar como Google para rastrear um URL (com a string de consulta utm_campaign) - esse URL agora parece ter desaparecido e o URL canônico agora está indexado.
Brendon
Além disso, as estatísticas de rastreamento ( captura de tela ) parecem mostrar páginas demorando muito para serem rastreadas (com média de 2,3 segundos). Não tenho certeza se esse é um problema generalizado, mas talvez o Google esteja com problemas para rastrear o site.
Brendon
Você também pode fazer uma pequena limpeza quando o visitante chegar ao seu site. Use o script URL fresco do link para remover dinamicamente quaisquer parâmetros UTM do URL depois de se beneficiar dele. Em segundo lugar adicionar parâmetros de URL ...
Muhammad Usman