Perguntas com a marcação «web-crawlers»

Um programa de computador que acessa páginas da Web para várias finalidades (raspar conteúdo, fornecer aos mecanismos de pesquisa informações sobre seu site etc.)

18
Qual agente de usuário devo definir?

Existe o Ask bot, que define este cabeçalho: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) Considerando isso, tenho as seguintes perguntas: Se estou escrevendo um rastreador da Web chamado Goofy, qual agente de usuário devo usar? Qual é a diferença se eu colocar Mozilla/2.0ou...

15
SEO - site responsivo e menus duplicados

Sempre que crio um site responsivo, geralmente crio 2 menus: um oculto e usado para dispositivos móveis e o outro exibido como menu principal; depois, oculto para mostrar o menu móvel. Sempre que se trata de SEO e de aranhas que navegam no site, sou enganado por ter menus duplicados? Há algo que eu...

15
Como bloquear aranhas baidu

A maioria das minhas visitas são de aranhas baidu. Eu não acho que isso ajuda os mecanismos de pesquisa, então estou pensando em como bloqueá-los. Isso poderia ser feito via iptables? Estou usando o nginx como meu servidor da

15
Impedir que bots maliciosos publiquem spam

Lembro-me de um site fechado por uso indevido e me pergunto se os bots fazem parte dele. Se o bot está postando algo no meu site, como posso combatê-lo? Eu estava pensando em definir alguns cookies e alterá-los via JavaScript + timestamp e assinar (para que os cookies de ontem não possam ser usados...

12
Por que o baidu rastreia meu site como um louco

Ao verificar meu log do apache, vejo que o baidu está rastreando meu site 10 vezes por dia nas últimas 2 semanas. Não é que eu me importe muito com isso, mas estou realmente curioso sobre o motivo de ele estar fazendo isso. É um site de página única muito pequeno, com poucos links de...

12
Devo bloquear bots do meu site e por quê?

Meus registros estão cheios de visitantes de robôs, geralmente da Europa Oriental e da China. Os bots são identificados como Ahrefs, Seznam, LSSRocketCrawler, Yandex, Sogou e assim por diante. Devo bloquear esses robôs do meu site e por quê? Quais têm um propósito legítimo em aumentar o tráfego...

12
Status do Ajax rastreável?

Vi que o Google tinha uma boa proposta / padrão para tornar os aplicativos Ajax rastreáveis, via #! (estrondo de hash). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Minhas perguntas são: Eles já estão usando essa "proposta" no mundo real? Outros...