O Google armazenou em cache milhares de PDFs no meu site, que não devem ser públicos. Atualizei meus cabeçalhos, mas preciso remover o cache existente da Visualização rápida.
A ferramenta para webmasters do Google permite removê-los um por um - no entanto, isso claramente não é prático, considerando a quantidade de arquivos a serem removidos.
Alguém sabe como posso remover em lote PDFs do cache do Google? Idealmente, gostaria de uma maneira de remover tudo o que corresponde a "site: mysite.com * .pdf"
Respostas:
Parece que você já descobriu como solicitar a remoção de um único URL , o que obviamente está fora de questão aqui. A segunda etapa desse processo também permite solicitar a remoção de um diretório inteiro , se os URLs do arquivo forem previsíveis dessa maneira específica. (Se você possui milhares de PDFs, espero que sejam pelo menos um pouco organizados.) Caso contrário, você está praticamente sem opções, infelizmente.
fonte
Recentemente, tive um hack que adicionou milhares de páginas falsas ao meu site.
Enviei um sitemap corrigido para o Google Search Console (anteriormente chamado de Ferramentas do Google para webmasters) e virei todos os links para 410, mas o Google ainda tinha a maioria deles indexada.
Usei as Ferramentas do WebMaster - Remoção de URL em massa Extensão do Chrome para enviar automaticamente os URLs para remoção. É basicamente um script que pega uma lista dos URLs e os envia para você, um de cada vez. Levará horas para enviar todos, mas pelo menos você não precisará fazer isso sozinho. Aqui está um artigo sobre como usá-lo .
Você pode obter uma lista dos URLs indexados pelo Google baixando os dados diretamente do Search Console. Vá para Status> Cobertura do índice e selecione os resultados válidos e role para baixo. Você verá que o Google indexou uma tonelada de URLs que não estão no seu mapa do site. Você pode baixar os primeiros 1000 resultados. Aparentemente, existe uma maneira indireta de obter todos eles, não apenas os primeiros mil, mas envolve chamadas de API do Excel. Eu apenas esperei alguns dias entre cada mil, quando eles lentamente caíram do índice.
Outra rota é fazer com que um plug-in do WP crie um mapa do site e depois filtre os PDFs ou o que você estiver direcionando. Provavelmente, você precisará copiar / colar / excluir manualmente aqui. Para garantir a segurança, rolei lentamente minha lista de cerca de 2.700 URLs de spam e apaguei os URLs legítimos. Demorou apenas cerca de 20 minutos.
Se você não está tentando destruir permanentemente algo, como spam, e está tentando ofuscar recursos premium, use outros métodos para impedir a indexação desses recursos, como um arquivo de robôs. Mas se o Google não ouviu ou você deixou cair a bola, pelo menos agora você pode corrigir o problema e removê-lo do índice em apenas alguns dias.
Na minha circunstância específica, estou me perguntando por que o Google não possui um botão da máquina do tempo, nem desfaz nem redefine. A idéia é que posso dizer ao Google que o site foi hackeado alguns dias atrás, mas nós o consertamos e, portanto, desfazemos o último x número de dias de rastreamento e indexação. Mas isso seria fácil demais.
fonte
Se os arquivos "não devem ser públicos", devem estar na Internet pública. Você pode remover os arquivos das listagens do Google (via robots.txt e outros métodos), mas se os arquivos ainda estiverem lá, qualquer um ainda poderá baixá-los.
Você deve mantê-los atrás de algum tipo de autenticação. Por exemplo, mova os arquivos para fora do diretório público da web e os sirva de um script que verifica se o usuário é válido primeiro.
fonte