Estamos com problemas para que o Google indexe os arquivos PDF em nosso site. Existem cerca de 50 PDFs e variam em tamanho de 20 KB a pouco menos de dois megas. Eles não são protegidos, podem ser lidos anonimamente e, dentro do PDF Reader, você pode pesquisar no documento.
Eles estão listados no SiteMap.xml. Eu posso até olhar os logs do IIS e ver o Googlebot lendo os arquivos PDF, mas, com exceção de cinco, eles nunca são incluídos nos resultados da pesquisa.
Se eu fizer um arquivo de filetye: pdf, apenas cinco PDFs aparecerão. Se eu procurar o texto que sei que está dentro de um PDF, os PDFs nunca serão exibidos (exceto os cinco indexados).
Alguém tem alguma idéia de por que os documentos PDF com mais de 45 anos não estão sendo incluídos no índice, mesmo estando no mapa do site e no Googlebot os lendo?
fonte
Respostas:
todos os pdfs estão localizados no mesmo local? Certa vez, tive o problema de que um dos meus locais em PDF estivesse dentro de uma pasta excluída pelo robots.txt. Envie seu mapa do site diretamente para o site da ferramenta google-webmaster e você poderá obter informações valiosas sobre o porquê dos PDFs não aparecerem. no meu caso, o google me disse: 'ei, esses 54 documentos em PDF estão no seu mapa do site, mas devido às restrições do robots.txt, não podemos indexá-los'. então isso foi bastante útil. mas lembre-se do que o comentarista diz, pode demorar um pouco até que essas informações apareçam.
Ferramentas para webmasters do Google: https://www.google.com/webmasters/tools
fonte
Pode haver um atraso entre o Google ler inicialmente seu conteúdo e ele aparecer no índice. Recentemente, relançamos um site, enviando sitemaps para o Google no lançamento, e demorou cerca de três semanas para as novas páginas começarem a aparecer nos resultados de pesquisa.
Há quanto tempo você enviou esses PDFs através do seu mapa do site?
Parece que seus PDFs estão sendo indexados, mas está demorando um pouco. Presumindo que não haja diferença na maneira como os PDFs não indexados foram gerados, suspeito que seja apenas o índice que demora um pouco para atualizar.
Em uma ligeira tangente, uma ferramenta útil que eu recomendaria se inscrever é o Google Webmaster - mostra a taxa de rastreamento, problemas com seu site, mapas de site e indexação dentro de um dia ou mais após o Googlebot acessar seu site. Isso pode economizar um pouco de tempo passando pelos logs do IIS.
fonte
Os seus arquivos PDF são digitalizados com OCR para que o texto seja selecionável e pesquisável? Ou os arquivos PDF estão sendo digitalizados sem OCR; nesse caso, o texto será armazenado como uma imagem grande? Se o PDF for todas as imagens, não acho que o Google possa indexá-lo (ainda). Ou o Google já encontrou suas páginas?
fonte
Você pode enviá-lo manualmente para o Google , isso ocasionalmente acelera o processo.
fonte