Meu robots.txt
nas Ferramentas do Google para webmasters mostra os seguintes valores:
User-agent: *
Allow: /
O que isso significa? Não tenho conhecimento suficiente sobre isso, então procuro sua ajuda. Quero permitir que todos os robôs rastreiem meu site, esta é a configuração correta?
robots.txt
Raajpoot
fonte
fonte
Respostas:
Esse arquivo permitirá o acesso de todos os rastreadores
Basicamente, isso permite que todos os agentes do usuário (o *) acessem todas as partes do site (o /).
fonte
Se você deseja permitir que cada bot rastreie tudo, esta é a melhor maneira de especificá-lo em seu robots.txt:
Observe que o
Disallow
campo possui um valor vazio, o que significa de acordo com a especificação :Seu jeito (com em
Allow: /
vez deDisallow:
) também funciona, masAllow
não faz parte da especificação original do robots.txt , então não é compatível com todos os bots (muitos dos mais populares oferecem suporte, como o Googlebot ). Dito isso, campos não reconhecidos devem ser ignorados, e para bots que não reconhecemAllow
, o resultado seria o mesmo neste caso de qualquer maneira: se nada é proibido de ser rastreado (comDisallow
), tudo pode ser rastreado.No entanto, formalmente (de acordo com a especificação original) é um registro inválido, porque pelo menos um
Disallow
campo é obrigatório:fonte
Eu entendo que esta é uma pergunta bastante antiga e tem algumas respostas muito boas. Mas, aqui estão meus dois centavos por uma questão de integridade.
De acordo com a documentação oficial , existem quatro maneiras de permitir o acesso completo para robôs acessarem seu site.
Limpar \ limpo:
Especifique uma correspondência global com um segmento não permitido, conforme mencionado por @unor. Então você se
/robots.txt
parece com isso.O hack:
Crie um
/robots.txt
arquivo sem conteúdo. Qual será o padrão para permitir todos para todos os tipos deBots
.Eu não me importo assim:
Não crie um
/robots.txt
completamente. Que deve produzir exatamente os mesmos resultados que os dois anteriores.O feio:
A partir da documentação dos robôs para metatags , você pode usar a seguinte metatag em todas as páginas do seu site para informar
Bots
que essas páginas não devem ser indexadas.Para que isso seja aplicado a todo o seu site, você terá que adicionar esta metatag para todas as suas páginas. E essa tag deve ser colocada estritamente sob a
HEAD
tag da página. Mais sobre esta metatag aqui .fonte
Isso significa que você permite que cada (
*
) user-agent / crawler acesse a raiz (/
) do seu site. Você está bem.fonte