Encontrei um comunicado do Google: http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html
Afirma:
Para renderização e indexação ideais, nossa nova diretriz especifica que você deve permitir ao Googlebot acesso aos arquivos JavaScript, CSS e de imagem que suas páginas usam. Isso fornece renderização e indexação ideais para o seu site. A proibição de rastrear arquivos Javascript ou CSS no robots.txt do seu site prejudica diretamente a qualidade com que nossos algoritmos processam e indexam seu conteúdo e podem resultar em classificações abaixo do ideal.
Por padrão, o arquivo robots.txt do Joomla vem com a proibição de:
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Por favor, informe, devemos remover os itens abaixo do arquivo robots.txt com base no anúncio do Google?
Disallow: /components/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
É isso que é recomendado conforme o anúncio para sites baseados em Joomla?
fonte
robots.txt
já que ninguém (nem mesmo os mecanismos de pesquisa agora que o Google está exigindo o que você não deve proibir) vai segui-lo de qualquer maneira?Respostas:
Honestamente, é melhor remover tudo do seu robots.txt. Tanto quanto posso ver, todos os arquivos PHP no Joomla contêm a linha
O que significa que, se você carregar um arquivo PHP diretamente no navegador, tudo o que obtém é um arquivo em branco, que os mecanismos de pesquisa ignoram. (Eles nunca devem se deparar com eles, a menos que você os vincule diretamente.)
O problema de deixar alguns desses diretórios bloqueados é que alguns componentes e módulos mantêm seus arquivos CSS / JS dentro desses respectivos diretórios e não nas pastas preferidas de mídia ou imagem.
Portanto, não há razão para bloquear nenhum arquivo Joomla do Google.
fonte
Além do uso / falta geral,
robots.txt
em um site Joomla bem gerenciado, com "boas" extensões de terceiros - os únicos lugares que devem conter CSS, JS ou imagens são:e, claro, seus subdiretórios .
Então, você pode simplesmente removê-los
robots.txt
.fonte
No Joomla 3.3, essas linhas foram removidas do arquivo robots.txt:
Mais informações aqui: http://www.energizethemes.com/blog/joomla/have-you-updated-the-joomla-robots-txt-file.html
fonte
Se você vir suas páginas sem erros ao buscar como o Google na WMT, provavelmente está bem. Mas, no futuro, você pode atualizar algum conteúdo do seu site, o que exigirá alguns scripts / css de algumas das pastas bloqueadas. Portanto, acho que você pode ser melhor em permitir que os mecanismos de pesquisa rastreiem todas essas pastas que contêm CSS / JavaScript.
fonte
As versões mais recentes do Joomla não bloqueiam mais as pastas
/media/
e/templates/
:Nem todas as extensões seguem as diretrizes de onde colocar arquivos CSS e JS etc., portanto, uma boa solução é permitir que o Google acesse esses arquivos, independentemente de onde eles sejam encontrados.
Você pode conseguir isso inserindo algumas linhas no início do seu
robots.txt
arquivo, assim:EDITAR:
Obrigado @ w3dk e @ Stephen Ostermiller pelo feedback! Você está certo. É melhor fazer algo assim:
Infelizmente, isso não parece funcionar como planejado, porque as regras mais longas (mais específicas) substituem as regras mais curtas e as linhas de permissão são ignoradas. Parece não fazer nenhuma diferença se as linhas de permissão seguem as linhas de proibição ou vice-versa.
A única maneira de conseguir contornar isso é fazer algo assim que parece funcionar quando testo nas Ferramentas do Google para webmasters:
EDIÇÃO 2 - MELHOR SOLUÇÃO:
OK, pesquisei um pouco mais e encontrei a resposta em https://stackoverflow.com/a/30362942/1983389
Parece que a solução mais correta e mais apoiado em todos os rastreadores da web é algo como o seguinte (permitindo o acesso a
*.css
e*.js
arquivos nos/bin
,/cache
,/installation
,/language
,/logs
, e/tmp
pastas e, possivelmente, algumas das outras pastas não faz muito sentido):fonte
Disallow:
sob oUser-agent: Googlebot
grupo, o que seria mais legível.)/logs/
, impedindo que outros robôs o fizessem.