Para impedir que seu arquivo PDF (ou qualquer arquivo não HTML) seja listado nos resultados da pesquisa, a única maneira é usar o X-Robots-Tag
cabeçalho de resposta HTTP , por exemplo:
X-Robots-Tag: noindex
Você pode fazer isso adicionando o seguinte trecho ao arquivo .htaccess raiz do site ou ao arquivo httpd.conf:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
Observe que, para que o procedimento acima funcione, você deve poder modificar os cabeçalhos HTTP do arquivo em questão. Portanto, talvez você não consiga fazer isso, por exemplo, nas páginas do GitHub .
Observe também que robots.txt que não evitar sua página sejam listados nos resultados da pesquisa.
O que ele faz é parar o bot de rastejar sua página, mas se um terceiro ligações do partido para seu arquivo PDF a partir de seu site, sua página ainda serão listados.
Se você impedir que o bot rastreie sua página usando o robots.txt , ele não terá a chance de ver a X-Robots-Tag: noindex
tag de resposta. Portanto, nunca desaprove nunca uma página no robots.txt se você empregar o X-Robots-Tag
cabeçalho. Mais informações podem ser encontradas no Google Developers: Robots Meta Tag .
Files
diretiva habilitada para regex , considere usá-laFilesMatch
, como sugerido aqui stackoverflow.com/q/14792381/1262357Existem várias maneiras de fazer isso (combiná-las é obviamente uma maneira certa de fazer isso):
1) Use o robots.txt para bloquear os arquivos dos rastreadores dos mecanismos de pesquisa:
2) Use
rel="nofollow"
nos links para esses PDFs3) Use o
x-robots-tag: noindex
cabeçalho HTTP para impedir que os rastreadores os indexem. Coloque este código no seu arquivo .htaccess :fonte
x-robots-tag
erobots.txt
ao mesmo tempo não é uma boa ideia e pode fazer com que o conteúdo seja indexado de qualquer maneira. Se você usar os doisrobots.txt
ex-robots-tag: noindex
, o rastreador nunca rastreará ou verá o arquivox-robots-tag
porque ele primeiro honra orobots.txt
.robots.txt
não impede que os recursos sejam indexados, apenas sejam rastreados; portanto, a melhor solução é usar ox-robots-tag
cabeçalho, mas permitir que os mecanismos de pesquisa rastreiem e localizem esse cabeçalho deixando-orobots.txt
sozinho.Você pode usar o arquivo robots.txt . Você pode ler mais aqui .
fonte
Não tenho certeza se esse peitoril pode trazer algum valor para alguém, mas recentemente encontramos um problema que nossa caixa GSA local não está disposta a indexar arquivo PDF.
O Suporte do Google trabalhou com o problema e sua resposta é que ele está relacionado ao fato de este documento PDF ter um conjunto de propriedades personalizadas (Arquivo -> Propriedades do documento -> Personalizado (guia))
o que impediu que fosse corretamente indexado pelo GSA.
Se você tiver acesso ao documento e puder modificar suas propriedades, isso poderá funcionar ... na concessão do GSA.
fonte
Se você estiver exibindo instâncias de desenvolvimento com nginx nos resultados de pesquisa do Google, existe uma maneira rápida e fácil de impedir que os mecanismos de pesquisa rastreiem seu site. Adicione a seguinte linha ao bloco de localização do seu arquivo de configuração do host virtual para o bloco que você deseja impedir o rastreamento.
fonte
Você pode usar um arquivo robots.txt. Os mecanismos de pesquisa que respeitam esse arquivo não indexam o PDF. Basta usar o comando para impedir a indexação de um arquivo e designar qual pasta ou arquivo PDF você não deseja que os mecanismos de pesquisa indexem.
fonte