O que você NÃO encontra no Google? [fechadas]

18

O Google afirma ser justo e é do interesse da empresa (na maioria das vezes) vasculhar a Internet em busca de tudo e qualquer coisa que suas aranhas possam acessar. Eu quero saber:

  • Que tipo de conteúdo (acessível ao público) o Google deixa de fornecer?
  • Existe um tipo específico de conteúdo que o Google não pode recuperar?

As referências, especialmente à documentação do Google, seriam especialmente impressionantes.

samthebrand
fonte
Agora que a UE promulgou um "direito de ser esquecido", há um pouco que não poderemos mais encontrar. Aqui estão algumas coisas que foram "esquecidas".
21414 #

Respostas:

21

Algumas idéias sobre o tipo de coisas:

  1. O conteúdo explicitamente proibido pelo robots.txtarquivo de um domínio é excluído do índice do Google.
  2. Sites que não estão vinculados a outros sites que o Google já conhece. Ou seja, provavelmente existem muitos sites que não são vinculados a partir de páginas visíveis; esses sites nunca serão encontrados pelo Google spider, a menos que sejam enviados manualmente ao Google pelas Ferramentas do Google para webmasters .
  3. Sites que estão por trás de formulários da web que você precisa preencher.
  4. Imagens do censo. Como o conteúdo é imagens indexadas manualmente, geralmente são encontradas em sites pagos, como ancestry.com.

Saiba mais sobre a Deep Web

amh
fonte
2
O ponto 2 não é verdade. Você pode enviar um site para o Google por meio das Ferramentas do Google para webmasters , e ele será indexado, mesmo que não esteja vinculado a outros sites.
18712 Alex
Isso é verdade. Bom esclarecimento.
Amh
3
Na verdade, eu discordo do segundo ponto. Eu tinha um servidor Web de teste no meu PC e ele foi indexado. Encontrei isso verificando o log de acesso.
Bakudan
2
Registrei novos domínios, comecei a desenvolvê-los e encontrei o Googlebot rastreando-os apenas alguns dias depois. Eu pensei que isso era meio assustador até que eu percebi - talvez eu não seja a primeira pessoa a possuir esse domínio :) Eles não divulgam detalhes, mas tenho certeza de que eles controlam domínios que as pessoas pensavam que eram importantes o suficiente para se registrar e em pelo menos alguns visitados em algum momento, pelo menos por algum período de tempo.
Tim Post
6

Além do Twitter, o Google não indexa o Tumblr muito bem. As postagens do blog no Tumblr são mais fáceis de encontrar usando a pesquisa do Tumblr. Além disso, tudo no Google Sites não é (ou dificilmente) é indexado. Se você iniciar um site do Google, obtenha seu próprio domínio.

Os blogs menores que não são atualizados regularmente são frequentemente descartados dos resultados da pesquisa. Além disso, qualquer coisa que eles acham que é um golpe .

David
fonte
5

Bem, a maior parte do conteúdo do Twitter não é indexada pelo Google, mesmo que seja pública. Costumava estar disponível para o Google, mas esse não é mais o caso desde que o contrato expirou.

Fonte .

Alex
fonte
Embora verdadeira, a pergunta é qual o "conteúdo de alta qualidade" que não está disponível no Google. A maior parte do Twitter não atenderia a esse critério :) No entanto, vejo o tweet estranho aparecer na pesquisa do Google.
HappyTimeGopher
4

Depende de qual país você está. Na Alemanha, ele não mostra milhares de sites que o governo acha que não são bons para você, e a lista aumenta aos milhares a cada ano.

O Google é o motor da censura na Internet. Se você deseja uma Internet gratuita, use algumas empresas não-más, como DuckDuckGo ou outras.

Hellagot
fonte
1

Sites com tanto conteúdo que o Google simplesmente não teve tempo (ou inclinação) para indexar tudo.

Sites que não possuem um mapa de site rastreável e exigem que o Google forneça termos de pesquisa para acessar os resultados disponíveis no site podem não estar totalmente indexados.

Josephine Bonaparte
fonte