Eu gostaria de ter uma lista de arquivos que deveriam existir em todos os sites. A idéia é agradar a maioria dos navegadores e bots e diminuir o número de 404 mensagens nos logs. Até agora, tenho os seguintes
Robots.txt é um arquivo de texto usado pelos proprietários do site para fornecer instruções sobre o site aos robôs da web. Basicamente, ele informa aos robôs quais partes do site estão abertas e quais estão fechadas. Isso é chamado de Protocolo de exclusão de robôs.
Eu gostaria de ter uma lista de arquivos que deveriam existir em todos os sites. A idéia é agradar a maioria dos navegadores e bots e diminuir o número de 404 mensagens nos logs. Até agora, tenho os seguintes
Se não quiser definir nenhum comportamento especial, não há problema em não ter um arquivo robots.txt? Ou a falta de um pode ser
Em um servidor da web, agora tenho que me registrar novamente. Percebi que o robots.txt está vazio. Gostaria de saber se há uma diferença entre um robots.txt vazio e nenhum arquivo. Os rastreadores se comportam de maneira diferente nesses dois casos? Portanto, é seguro excluir um robots.txt...
Eu tenho alguns URLs gerados dinamicamente. Posso usar regex para bloquear esses URLs em um arquivo
Atualmente, tenho dois sites em que estou trabalhando: um carrinho de compras e outro comprador. Ambos estão com o mesmo nome de domínio. Por exemplo, http://example.com/first_url http://example.com/second_url Ambos os URLs têm toneladas de páginas abaixo deles
Eu tenho algumas páginas no meu site das quais quero manter os mecanismos de pesquisa afastados, por isso os desautorizei no meu robots.txtarquivo assim: User-Agent: * Disallow: /email No entanto, notei recentemente que o Google ainda retorna links para essas páginas nos resultados de pesquisa....
Adicionei um arquivo robots.txt a um dos meus sites há uma semana, o que deveria ter impedido o Googlebot de tentar buscar determinados URLs. No entanto, neste fim de semana, vejo o Googlebot carregando esses URLs exatos. O Google armazena em cache o robots.txt e, em caso afirmativo,...
Eu tenho um subdiretório que gostaria de ocultar dos rastreadores da Web do mecanismo de pesquisa. Uma maneira de fazer isso é usar a robots.txtno diretório raiz do servidor (a maneira padrão). No entanto, qualquer pessoa que conheça o URL do site e tenha algum conhecimento básico da Web pode...
Você poderia me informar como bloquear esses URLs robots.txtpara que o Googlebots pare de indexar? http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q Meu site foi invadido e agora está recuperado, mas o hacker indexou 5000 URLs no Google e agora recebo o erro 404 em links gerados...
Não gosto de ver muitos erros 404 no access.log do meu servidor web. Estou recebendo esses erros porque os rastreadores tentam abrir um arquivo robots.txt , mas não conseguiram encontrar nenhum. Então, eu quero colocar um arquivo robots.txt simples que impeça que os erros 404 apareçam no meu...
Existem algumas páginas no meu site que eu quero que o usuário possa visitar apenas se eu fornecer a ele o URL. Se eu proibir as páginas únicas robots.txt, elas serão visíveis por qualquer pessoa que as veja. Minha pergunta é: se eu não os vincular de qualquer lugar, ou pelo menos de qualquer...
CSS e modelos são permitidos no robots.txt ? Deve causar algum problema? No Joomla, CSS e modelos não são permitidos no robots.txt . Por favor, ajude-me a encontrar uma solução para colocar ou não a proibição de robôs para CSS, modelos etc. nos meus próximos
Eu tenho um site bilíngue com um índice de mapa do site para cada idioma vinculado a vários mapas de site diferentes (um para vídeos, um para conteúdo estático e outro para artigos). Gostaria de apresentar outro sitemap que vincule os índices do sitemap, para poder vincular esse sitemap no...
Porque com certeza parece. Para meus sites, proibimos o diretório de imagens e as visualizações são todas imagens ausentes, o que faz com que o site pareça instável. É esse o caso e existe uma maneira de permitir que apenas o bot de visualização acesse as imagens usando o robots.txt? EDIT:...
Li as respostas nesta pergunta, mas elas ainda deixam minha pergunta em aberto: o Google armazena em cache o robots.txt? Não encontrei uma maneira nas Ferramentas do Google para webmasters para invocar um novo download do meu robots.txt . Por algum erro, meu robots.txt foi substituído...
Este é o meu robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Mas as Ferramentas do Google para webmasters me dizem que os robôs estão bloqueando o acesso ao mapa do site: Encontramos um erro ao tentar acessar seu Sitemap....
Eu tenho um sub-domínio que não quero ser listado em nenhum resultado de mecanismo de pesquisa. Digamos que eu tenha: http://www.example.com http://child.example.com Como ocultar todos os URLs do child.example.comdomínio que estão sendo exibidos atualmente nos resultados do mecanismo de...
Depois de escrever vários bots e ver a enorme quantidade de bots aleatórios que rastreiam um site, eu me pergunto como webmaster, o que realmente vale a pena incluir em um site? Meu primeiro pensamento é que permitir bots no site pode potencialmente trazer tráfego real para ele. Existe algum...
Encontrei este artigo nas minhas notícias de SEO hoje. Parece implicar que você pode usar Noindex:diretivas além das Disallow:diretivas padrão no robots.txt . Disallow: /page-one.html Noindex: /page-two.html Parece que isso impediria os mecanismos de pesquisa de rastrear a página um e impediria...
Os user-agents podem ser listados juntos, seguidos por suas regras comuns em um robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma...