Se não quiser definir nenhum comportamento especial, não há problema em não ter um arquivo robots.txt?

29

Se não quiser definir nenhum comportamento especial, não há problema em não ter um arquivo robots.txt?

Ou a falta de um pode ser prejudicial?

Dan Dumitru
fonte

Respostas:

30

A falta de um arquivo robots.txt não será prejudicial. A partir do website robotstxt.org :

Para permitir que todos os robôs tenham acesso completo

Agente do usuário: *
Não permitir:

(ou apenas crie um arquivo "/robots.txt" vazio ou não use nenhum)

No entanto, mesmo que você não esteja especificando nada no seu arquivo robots.txt, é uma boa maneira de informar os mecanismos de pesquisa sobre a localização do seu Sitemap XML . Você pode fazer isso adicionando uma linha na parte superior do arquivo robots.txt que se parece com:

Mapa do site: http://www.example.com/sitemap-host1.xml

Você também deve estar ciente de que não tê-lo criará muitas entradas 404 em seus logs da web.

JasonBirch
fonte
+1 - bom resumo, embora eu realmente enfatize o que Kinopiko já enfatizou corretamente : basta criar o mais básico ou até vazio para evitar os 404s e (dependendo do tratamento da página 404 do site) potencialmente bastante tráfego / largura de banda , como os mecanismos de pesquisa aplicarão o controle de cache HTTP adequado para pular o download do arquivo novamente, se inalterado, vazio ou não.
Steffen Opel
Marcado como wiki, edite como achar melhor.
21410 JasonBirch
21

Se você não tiver um "robots.txt", seu registro de erros terá muitos 404s no arquivo, o que pode ser uma espécie de aborrecimento, semelhante a se você não tiver um favicon.


fonte
1
um ponto excelente ..
Jeff Atwood
1
+1 - Gostaria de acrescentar que você não se salva apenas de arquivos de log maiores e barulhentos, mas pode (dependendo do tratamento da página 404 do seu site) evitar potencialmente um pouco de tráfego / largura de banda , devido à maioria das 404 páginas. maior que um robots.txtarquivo simples , que também será baixado com menos frequência devido aos mecanismos de pesquisa que aplicam o controle de cache HTTP adequado .
Steffen Opel
6

Eu acho que teria que estar tudo bem, caso contrário, grandes extensões da web não seriam indexáveis ​​pelas aranhas da web.

Não robots.txté o mesmo que um "permitir indexação por todos" robots.txtquase por definição.

Jeff Atwood
fonte
2

A falta de um arquivo robots.txt deixa ao rastreador decidir o que pode e o que não pode fazer. Como leva apenas alguns segundos para evitar qualquer tipo de ambiguidade, por que não fazer uma que permita que todos os agentes acessem tudo?

Tim Post
fonte
0

Bem, como robots.txtcontém o endereço do seu sitemap , não ter um é potencialmente prejudicial.

Thomas Bonini
fonte
sitemaps só são úteis para certos tipos de sites, porém, IMO
Jeff Atwood
Também vi rastreadores (google em particular) procurarem /sitemap.xml ou /sitemap.gz na ausência de robots.txt
Tim Post
Você não precisa ter seu mapa do site no seu robots.txt, você pode enviá-lo ao Google / Yahoo / Bing de qualquer maneira. Definitivamente, não é "potencialmente prejudicial".
usar o seguinte
0

Dependendo do seu conteúdo, não haverá problemas em não ter um arquivo de robôs, desde que você tenha todas as páginas do seu site indexadas pelos mecanismos de pesquisa.

seanl
fonte