O Google afirma ser justo e é do interesse da empresa (na maioria das vezes) vasculhar a Internet em busca de tudo e qualquer coisa que suas aranhas possam acessar. Eu quero saber:
- Que tipo de conteúdo (acessível ao público) o Google deixa de fornecer?
- Existe um tipo específico de conteúdo que o Google não pode recuperar?
As referências, especialmente à documentação do Google, seriam especialmente impressionantes.
google-search
samthebrand
fonte
fonte
Respostas:
Algumas idéias sobre o tipo de coisas:
robots.txt
arquivo de um domínio é excluído do índice do Google.Saiba mais sobre a Deep Web
fonte
Além do Twitter, o Google não indexa o Tumblr muito bem. As postagens do blog no Tumblr são mais fáceis de encontrar usando a pesquisa do Tumblr. Além disso, tudo no Google Sites não é (ou dificilmente) é indexado. Se você iniciar um site do Google, obtenha seu próprio domínio.
Os blogs menores que não são atualizados regularmente são frequentemente descartados dos resultados da pesquisa. Além disso, qualquer coisa que eles acham que é um golpe .
fonte
Bem, a maior parte do conteúdo do Twitter não é indexada pelo Google, mesmo que seja pública. Costumava estar disponível para o Google, mas esse não é mais o caso desde que o contrato expirou.
Fonte .
fonte
Depende de qual país você está. Na Alemanha, ele não mostra milhares de sites que o governo acha que não são bons para você, e a lista aumenta aos milhares a cada ano.
O Google é o motor da censura na Internet. Se você deseja uma Internet gratuita, use algumas empresas não-más, como DuckDuckGo ou outras.
fonte
Você não pode procurar uma palavra-chave com caracteres especiais na Pesquisa Google :
Isso é especialmente irritante quando o Google algum código.
fonte
O Google remove os resultados de pesquisa considerados violadores dos direitos de propriedade intelectual após a retirada da DMCA e solicitações semelhantes. Consulte o formulário de solicitação de remoção de resultados de pesquisa do Google (ele pode ter um URL adicional entre).
fonte
Sites com tanto conteúdo que o Google simplesmente não teve tempo (ou inclinação) para indexar tudo.
Sites que não possuem um mapa de site rastreável e exigem que o Google forneça termos de pesquisa para acessar os resultados disponíveis no site podem não estar totalmente indexados.
fonte