Noções básicas sobre estatísticas de rastreamento do Google

11

Lancei meu site em janeiro de 2011 e ele está indexado no Google, o que é ótimo - cerca de 300 páginas de conteúdo até agora. Estou tentando entender o que aconteceu com as estatísticas de rastreamento no final de junho e início de julho. O que causou a escalada maciça? O que significa seguir adiante? Há mais alguma coisa que eu deveria estar fazendo?


insira a descrição da imagem aqui

Ubique
fonte

Respostas:

2

Se você achar que eles estão rastreando demais o site (talvez até com conteúdo mais profundo), verifique se os cabeçalhos HTTP estão retornando bons valores para itens como hora da "última modificação" etc. Pode ser que o Googlebot superestime o quanto o site está mudando . Como um bônus, seu site se comportará melhor em relação ao cache (seja proxy ou navegador) e, portanto, parecerá um pouco mais rápido.

Você faria bem em estudar quais URLs estão sendo rastreados (revisando os logs do servidor). Se eles estão rastreando novamente o mesmo URL repetidamente, você definitivamente tem um problema. Uma variante comum disso é se você tiver uma página que possa ser exibida de várias maneiras diferentes usando variáveis ​​de solicitação. O Googlbot pode tentar rastrear todas as combinações possíveis dessas variáveis.

Um exemplo que encontrei como operador de rastreamento foi uma página com uma lista de vinte títulos, qualquer combinação que pudesse ser expandida. Basicamente, essa página tinha 2 ^ 20 URLs diferentes!

Certifique-se de que o Googlebot não esteja travado rastreando basicamente a mesma página repetidamente com parâmetros trivialmente diferentes (eu já vi isso envolvido)

Kris
fonte
Obrigado por isso, notei que hoje houve outro 'pico' de atividade, por isso estou ficando mais preocupado com o rastreamento das estatísticas de rastreamento do Google por 1.000 páginas de conteúdo - só tenho 300 páginas! Como verifico quais páginas o Google está rastreando novamente e novamente? E como verifico se meus cabeçalhos HTTP estão retornando bons valores - existe um aplicativo de teste?
Ubique
Os logs do servidor devem informar quais páginas o Google está rastreando. Quanto aos cabeçalhos HTTP, existem vários plugins do Firefox. Pessoalmente eu uso o Firebug.
Kris
1

Acho que o Google altera a taxa de rastreamento com a idade do site, popularidade (links para o seu site), marcação e cabeçalho, mapas adequados do site etc. Eles também mudaram o rastreador há algum tempo, para que o conteúdo agora possa aparecer nos resultados de pesquisa muito mais rapidamente do que costumava ser. (pelo menos 2 semanas antes da alteração).

Então, quando eu lancei meu blog há 2 anos, o Google levou meses para indexar todo o conteúdo e semanas para indexar novas postagens. Agora vejo qualquer postagem nos resultados de pesquisa no mesmo dia em que a publico.

Simples assim, o Google não gosta de novos sites, mas respeita os mais velhos.

Anton
fonte