Devemos modificar nosso robots.txt do Joomla após o anúncio do Google sobre rastreamento de CSS e JavaScript?

8

Encontrei um comunicado do Google: http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html

Afirma:

Para renderização e indexação ideais, nossa nova diretriz especifica que você deve permitir ao Googlebot acesso aos arquivos JavaScript, CSS e de imagem que suas páginas usam. Isso fornece renderização e indexação ideais para o seu site. A proibição de rastrear arquivos Javascript ou CSS no robots.txt do seu site prejudica diretamente a qualidade com que nossos algoritmos processam e indexam seu conteúdo e podem resultar em classificações abaixo do ideal.

Por padrão, o arquivo robots.txt do Joomla vem com a proibição de:

Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Por favor, informe, devemos remover os itens abaixo do arquivo robots.txt com base no anúncio do Google?

Disallow: /components/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/

É isso que é recomendado conforme o anúncio para sites baseados em Joomla?

Mordaça
fonte
Por que não desistir, robots.txtjá que ninguém (nem mesmo os mecanismos de pesquisa agora que o Google está exigindo o que você não deve proibir) vai segui-lo de qualquer maneira?
Pergunta Overflow
Relacionado (não uma duplicata): Robots.txt - CSS permitir ou não permitir
un ou

Respostas:

3

Honestamente, é melhor remover tudo do seu robots.txt. Tanto quanto posso ver, todos os arquivos PHP no Joomla contêm a linha

defined('_JEXEC') or die;

O que significa que, se você carregar um arquivo PHP diretamente no navegador, tudo o que obtém é um arquivo em branco, que os mecanismos de pesquisa ignoram. (Eles nunca devem se deparar com eles, a menos que você os vincule diretamente.)

O problema de deixar alguns desses diretórios bloqueados é que alguns componentes e módulos mantêm seus arquivos CSS / JS dentro desses respectivos diretórios e não nas pastas preferidas de mídia ou imagem.

Portanto, não há razão para bloquear nenhum arquivo Joomla do Google.

DisgruntledGoat
fonte
Obrigado. No entanto - eu vejo - quando uma busca de uma página através do Webmaster - é muito boa - apesar de ter desaprovado todas essas pastas. A remoção de desautorizar será útil para as páginas?
Gag
11
@ Gagan Não tenho certeza, mas a ferramenta de busca nas Ferramentas do Google para webmasters provavelmente ignora o robots.txt.
usar o seguinte
11
A GWMT faz as duas coisas. Quando você busca como google, ele mostra como o Google vê seu site e como um usuário vê seu site. @DisgruntledGoat está certo, não há necessidade de bloquear nada.
Brent Friar
2

Além do uso / falta geral, robots.txtem um site Joomla bem gerenciado, com "boas" extensões de terceiros - os únicos lugares que devem conter CSS, JS ou imagens são:

/images
/media
/templates

e, claro, seus subdiretórios .

Então, você pode simplesmente removê-los robots.txt.

Craig
fonte
1

Se você vir suas páginas sem erros ao buscar como o Google na WMT, provavelmente está bem. Mas, no futuro, você pode atualizar algum conteúdo do seu site, o que exigirá alguns scripts / css de algumas das pastas bloqueadas. Portanto, acho que você pode ser melhor em permitir que os mecanismos de pesquisa rastreiem todas essas pastas que contêm CSS / JavaScript.

Bojan Miljevic
fonte
1

As versões mais recentes do Joomla não bloqueiam mais as pastas /media/e /templates/:

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Nem todas as extensões seguem as diretrizes de onde colocar arquivos CSS e JS etc., portanto, uma boa solução é permitir que o Google acesse esses arquivos, independentemente de onde eles sejam encontrados.

Você pode conseguir isso inserindo algumas linhas no início do seu robots.txtarquivo, assim:

#Googlebot
User-agent: Googlebot
Allow: *.css
Allow: *.js

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

EDITAR:

Obrigado @ w3dk e @ Stephen Ostermiller pelo feedback! Você está certo. É melhor fazer algo assim:

User-agent: *
Allow: *.css
Allow: *.js
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Infelizmente, isso não parece funcionar como planejado, porque as regras mais longas (mais específicas) substituem as regras mais curtas e as linhas de permissão são ignoradas. Parece não fazer nenhuma diferença se as linhas de permissão seguem as linhas de proibição ou vice-versa.

A única maneira de conseguir contornar isso é fazer algo assim que parece funcionar quando testo nas Ferramentas do Google para webmasters:

User-agent: *
Allow: /************************************************************.css
Allow: /************************************************************.js
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

EDIÇÃO 2 - MELHOR SOLUÇÃO:

OK, pesquisei um pouco mais e encontrei a resposta em https://stackoverflow.com/a/30362942/1983389

Parece que a solução mais correta e mais apoiado em todos os rastreadores da web é algo como o seguinte (permitindo o acesso a *.csse *.jsarquivos nos /bin, /cache, /installation, /language, /logs, e /tmppastas e, possivelmente, algumas das outras pastas não faz muito sentido):

User-agent: *
Allow: /administrator/*.css
Allow: /administrator/*.js
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Allow: /cli/*.css
Allow: /cli/*.js
Disallow: /cli/
Allow: /components/*.css
Allow: /components/*.js
Disallow: /components/
Allow: /includes/*.css
Allow: /includes/*.js
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Allow: /layouts/*.css
Allow: /layouts/*.js
Disallow: /layouts/
Allow: /libraries/*.css
Allow: /libraries/*.js
Disallow: /libraries/
Disallow: /logs/
Allow: /modules/*.css
Allow: /modules/*.js
Disallow: /modules/
Allow: /plugins/*.css
Allow: /plugins/*.js
Disallow: /plugins/
Disallow: /tmp/
Neil Robertson
fonte
2
Isso permitirá que o Googlebot rastreie tudo , que é bem diferente do arquivo robots.txt original - é essa a intenção? (No entanto, este é o mesmo que simplesmente incluindo Disallow:sob o User-agent: Googlebotgrupo, o que seria mais legível.)
MrWhite
Sim, a intenção é permitir que o Google acesse todos os arquivos CSS e JS no site.
Neil Robertson
2
Não apenas arquivos CSS e JS, mas todos os arquivos no site. (?)
MrWhite 2/16/16
11
w3dk está correto. Se você adicionar uma seção especial ao Googlebot, precisará duplicar todas as regras existentes nessa seção. Seu arquivo robots.txt proposto permitiria o rastreamento do Googlebot /logs/, impedindo que outros robôs o fizessem.
Stephen Ostermiller