Robots.txt - CSS permite ou não permite

12

CSS e modelos são permitidos no robots.txt ?

Deve causar algum problema?

No Joomla, CSS e modelos não são permitidos no robots.txt . Por favor, ajude-me a encontrar uma solução para colocar ou não a proibição de robôs para CSS, modelos etc. nos meus próximos sites.

Manju George
fonte
Eu não acho que o Joomla bloqueia esses arquivos por padrão - se é isso que você está sugerindo?
MrWhite

Respostas:

23

O Google atualizou muito recentemente suas diretrizes para declarar oficialmente que você não deve bloquear o acesso aos arquivos CSS ou JS no robots.txt . Isso garante que, quando o Google rastreia o site, ele pode ser renderizado exatamente como um navegador faria.

Se você bloquear arquivos CSS ou JS, isso poderá prejudicar o desempenho do site nas classificações.

Mais informações aqui: Atualizando nossas Diretrizes técnicas para webmasters e aqui: Diretrizes para webmasters

Como esta é uma recomendação recente, muitos sites e CMSs (como o Joomla) geralmente têm esses arquivos bloqueados no robots.txt . O raciocínio por trás disso geralmente era que os mecanismos de pesquisa não precisavam rastrear ou indexar esses arquivos; portanto, para impedir que arquivos e diretórios desnecessários sejam indexados e para salvar o 'orçamento de rastreamento', eles costumavam ser bloqueados no robots.txt .

Máx.
fonte
2
O Google já diz há muito tempo que você não deve bloquear JS e CSS (vídeo de Matt Cutts de março de 2012), pois isso pode prejudicar a capacidade de G de rastrear seu site, mas apenas o tornou "mais oficial" recentemente.
MrWhite
2
Foi recomendado não bloquear CSS e JS por mais de uma década. Eu sei que a renderização pelos mecanismos de busca parece nova, mas não é, e algumas formas de renderização, incluindo JS simples, já existem há muito tempo.
Closetnoc
1
Nota adicional (um pouco relacionada, já que é frequentemente usada com JS) - Em relação a qualquer controlador que torne uma rota acessível via theme / view / JSON / URi - você deve bloquear esses itens ou pode enfrentar áreas não temáticas sendo indexadas em vez da página usando o referido faceta de dados. Esta é uma área de "visualização" que é válida para bloquear, especialmente itens que JS usa como JSON. Frequentemente, o G executa o JS, vê o link JSON e o visita. Causa erros ou, se surgir, um índice parcialmente construído. Isso é tudo de novo, mas fique atento.
dhaupin
1
Senti-me compelido a expressar minha forte discordância com a atitude do culto à carga que, seja o que for que o Google disser, devemos fazer. O Google também afirma que seu site terá uma classificação mais alta se você permitir que ele rastreie imagens, use HTTPS etc. No final do dia, você está construindo seu site para humanos ou robôs?
Pergunta Overflow
1
Acho que depende de quanto você depende de boas classificações no Google? Embora como a maioria das coisas, é apenas um pequeno indicador em um grande número de fatores que eles têm. Como você mencionou, eles disseram recentemente que os HTTPs são um fator de classificação pequeno, mas não mudei nenhum dos 100 dos sites em que trabalho para HTTPs, e suas classificações são boas.
Max
3

A estratégia do seu robots.txt sempre deve ser respondida pela pergunta: quais seções da minha web não devem ser rastreadas por um robô e quais seções podem ser rastreadas por um robô.

Os robôs implementam sua própria lógica e têm várias finalidades (não apenas o Google tem um rastreador ...). Portanto, se você está assumindo que um robô é "distraído" pelos seus arquivos CSS e JS, você abre a caixa preta do robô e assume o que a implementação atual e a intenção atual do robô é. Esta não é uma estratégia útil de longo prazo.

Em vez de pensar no domínio do robô, tente pensar no domínio de conteúdo da sua web.

Quero ressaltar que um arquivo robots.txt não é um mecanismo de segurança.

saintedlama
fonte
1

Os modelos são usados ​​pelo aplicativo de software de blog ou gerenciamento de conteúdo (CMS) e não devem ser acessíveis externamente onde CSS é lido pelo navegador e pelos mecanismos de pesquisa e deve ser lido. Dito isto, eu não bloquearia nenhum deles, mas também não alteraria nenhum do CMS. Os mecanismos de pesquisa e os bots não se preocupam com seus modelos. Basta bloquear o acesso ao seu site por URL / URI que você não deseja indexar ou ler, mas não considera o robots.txt como uma ferramenta de segurança. Não foi projetado para isso.

closetnoc
fonte