Perguntas com a marcação «robots.txt»

36

Arquivos que eu deveria ter em todos os sites

Eu gostaria de ter uma lista de arquivos que deveriam existir em todos os sites. A idéia é agradar a maioria dos navegadores e bots e diminuir o número de 404 mensagens nos logs. Até agora, tenho os seguintes

29

Se não quiser definir nenhum comportamento especial, não há problema em não ter um arquivo robots.txt?

Se não quiser definir nenhum comportamento especial, não há problema em não ter um arquivo robots.txt? Ou a falta de um pode ser

robots.txt

28

Existe alguma diferença entre um robots.txt vazio e nenhum robots.txt?

Em um servidor da web, agora tenho que me registrar novamente. Percebi que o robots.txt está vazio. Gostaria de saber se há uma diferença entre um robots.txt vazio e nenhum arquivo. Os rastreadores se comportam de maneira diferente nesses dois casos? Portanto, é seguro excluir um robots.txt...

web-crawlers robots.txt webserver

23

Podemos usar regex no arquivo robots.txt para bloquear URLs?

Eu tenho alguns URLs gerados dinamicamente. Posso usar regex para bloquear esses URLs em um arquivo

robots.txt regular-expression

19

Como desaprovo um diretório inteiro com o robots.txt?

Atualmente, tenho dois sites em que estou trabalhando: um carrinho de compras e outro comprador. Ambos estão com o mesmo nome de domínio. Por exemplo, http://example.com/first_url http://example.com/second_url Ambos os URLs têm toneladas de páginas abaixo deles

seo robots.txt

18

Por que os resultados de pesquisa do Google incluem páginas não permitidas no robots.txt?

Eu tenho algumas páginas no meu site das quais quero manter os mecanismos de pesquisa afastados, por isso os desautorizei no meu robots.txtarquivo assim: User-Agent: * Disallow: /email No entanto, notei recentemente que o Google ainda retorna links para essas páginas nos resultados de pesquisa....

google-search robots.txt

17

O Google armazena em cache o robots.txt?

Adicionei um arquivo robots.txt a um dos meus sites há uma semana, o que deveria ter impedido o Googlebot de tentar buscar determinados URLs. No entanto, neste fim de semana, vejo o Googlebot carregando esses URLs exatos. O Google armazena em cache o robots.txt e, em caso afirmativo,...

googlebot robots.txt google-cache

16

O robots.txt pode estar no subdiretório de um servidor?

Eu tenho um subdiretório que gostaria de ocultar dos rastreadores da Web do mecanismo de pesquisa. Uma maneira de fazer isso é usar a robots.txtno diretório raiz do servidor (a maneira padrão). No entanto, qualquer pessoa que conheça o URL do site e tenha algum conhecimento básico da Web pode...

web-crawlers robots.txt

15

O site foi hackeado. Precisa remover todos os URLs começando com + do Google, usar robots.txt?

Você poderia me informar como bloquear esses URLs robots.txtpara que o Googlebots pare de indexar? http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q Meu site foi invadido e agora está recuperado, mas o hacker indexou 5000 URLs no Google e agora recebo o erro 404 em links gerados...

google-search robots.txt url-removal

14

O que é um arquivo robots.txt válido mínimo?

Não gosto de ver muitos erros 404 no access.log do meu servidor web. Estou recebendo esses erros porque os rastreadores tentam abrir um arquivo robots.txt , mas não conseguiram encontrar nenhum. Então, eu quero colocar um arquivo robots.txt simples que impeça que os erros 404 apareçam no meu...

robots.txt

12

Robots.txt: preciso proibir uma página que não esteja vinculada a nenhum lugar?

Existem algumas páginas no meu site que eu quero que o usuário possa visitar apenas se eu fornecer a ele o URL. Se eu proibir as páginas únicas robots.txt, elas serão visíveis por qualquer pessoa que as veja. Minha pergunta é: se eu não os vincular de qualquer lugar, ou pelo menos de qualquer...

robots.txt

12

Robots.txt - CSS permite ou não permite

CSS e modelos são permitidos no robots.txt ? Deve causar algum problema? No Joomla, CSS e modelos não são permitidos no robots.txt . Por favor, ajude-me a encontrar uma solução para colocar ou não a proibição de robôs para CSS, modelos etc. nos meus próximos

css robots.txt

11

Um índice de sitemap pode conter outros índices de sitemap?

Eu tenho um site bilíngue com um índice de mapa do site para cada idioma vinculado a vários mapas de site diferentes (um para vídeos, um para conteúdo estático e outro para artigos). Gostaria de apresentar outro sitemap que vincule os índices do sitemap, para poder vincular esse sitemap no...

google sitemap robots.txt

11

O Google Preview obedece ao Robots.txt?

Porque com certeza parece. Para meus sites, proibimos o diretório de imagens e as visualizações são todas imagens ausentes, o que faz com que o site pareça instável. É esse o caso e existe uma maneira de permitir que apenas o bot de visualização acesse as imagens usando o robots.txt? EDIT:...

google robots.txt

11

Posso invocar o Google para verificar meu robots.txt?

Li as respostas nesta pergunta, mas elas ainda deixam minha pergunta em aberto: o Google armazena em cache o robots.txt? Não encontrei uma maneira nas Ferramentas do Google para webmasters para invocar um novo download do meu robots.txt . Por algum erro, meu robots.txt foi substituído...

google google-search-console robots.txt

11

As Ferramentas do Google para webmasters me dizem que os robôs estão bloqueando o acesso ao mapa do site

Este é o meu robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Mas as Ferramentas do Google para webmasters me dizem que os robôs estão bloqueando o acesso ao mapa do site: Encontramos um erro ao tentar acessar seu Sitemap....

google-search-console robots.txt web-crawlers

11

Ocultar um subdomínio do resultado do Google / Search Engine SEO?

Eu tenho um sub-domínio que não quero ser listado em nenhum resultado de mecanismo de pesquisa. Digamos que eu tenha: http://www.example.com http://child.example.com Como ocultar todos os URLs do child.example.comdomínio que estão sendo exibidos atualmente nos resultados do mecanismo de...

search-engines url robots.txt search noindex

11

Quais robôs realmente valem a pena ser incluídos em um site?

Depois de escrever vários bots e ver a enorme quantidade de bots aleatórios que rastreiam um site, eu me pergunto como webmaster, o que realmente vale a pena incluir em um site? Meu primeiro pensamento é que permitir bots no site pode potencialmente trazer tráfego real para ele. Existe algum...

seo web-crawlers robots.txt googlebot bingbot

10

Como funciona o "Noindex:" no robots.txt?

Encontrei este artigo nas minhas notícias de SEO hoje. Parece implicar que você pode usar Noindex:diretivas além das Disallow:diretivas padrão no robots.txt . Disallow: /page-one.html Noindex: /page-two.html Parece que isso impediria os mecanismos de pesquisa de rastrear a página um e impediria...

web-crawlers robots.txt googlebot noindex

10

Combinar user-agents no robots.txt

Os user-agents podem ser listados juntos, seguidos por suas regras comuns em um robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma...

web-crawlers robots.txt user-agent