Quais tecnologias de banco de dados os grandes mecanismos de pesquisa usam? [fechadas]

32

Alguém sabe como o Google ou o Yahoo realizam pesquisas por palavras-chave em quantidades muito grandes de dados? Que tipo de banco de dados ou tecnologias eles empregam para isso?

Demora alguns milissegundos, mas eles têm mais de um bilhão de páginas indexadas.

rkosegi
fonte
Há uma pergunta semelhante no Stack Overflow: stackoverflow.com/questions/362956/...
splattne

Respostas:

21

Tenho certeza de que há uma combinação de coisas:

  • hardware sério
  • muito disso - os dados são distribuídos e replicados em muitos nós e em diferentes data centers

    • (na verdade, no caso do Google, pelo menos acredito que eles tenham milhares e milhares de servidores realmente de baixo custo)
  • muitos resultados de consultas comuns são armazenados em cache, observe como eles preenchem pesquisas em potencial por itens que você nunca pesquisou antes; eles estão prevendo o que você pode procurar e esperando que eles já tenham seu resultado pré-calculado e armazenado em cache em algum lugar. Em muitos casos, eles existem - não há muitas pesquisas que você possa encontrar no Google hoje que não tenham sido solicitadas por alguém antes de você. Quando eles recebem uma nova frase de pesquisa, provavelmente usam algo como pesquisa de texto livre - e eu espero que as palavras-chave sejam extraídas semanticamente quando uma página é rastreada pela primeira vez, em vez de tentar encontrar palavras-chave no documento depois que você as procurou . É claro que eles precisam invalidar periodicamente esses caches, recalcular o ranking da página,
Aaron Bertrand
fonte
34

Pombos .

O coração da tecnologia de pesquisa do Google é o PigeonRank ™ , um sistema de classificação de páginas da web desenvolvido pelos fundadores do Google, Larry Page e Sergey Brin, da Stanford University:

insira a descrição da imagem aqui

Com base no trabalho inovador de BF Skinner, Page e Brin consideraram que os PCs (clusters de pombos) de baixo custo poderiam ser usados ​​para calcular o valor relativo das páginas da Web mais rapidamente do que editores humanos ou algoritmos baseados em máquinas. E embora o Google tenha dezenas de engenheiros trabalhando para melhorar todos os aspectos de nosso serviço diariamente, o PigeonRank continua a fornecer a base para todas as nossas ferramentas de pesquisa na web.

Por que o PigeonRank ™ patenteado do Google funciona tão bem

O sucesso do PigeonRank se baseia principalmente na capacidade de treinamento superior do pombo doméstico (Columba livia) e em sua capacidade exclusiva de reconhecer objetos, independentemente da orientação espacial. O pombo cinza comum pode facilmente distinguir entre os itens que exibem apenas as menores diferenças, uma capacidade que permite selecionar sites relevantes entre milhares de páginas semelhantes.

Ao coletar bandos de pombos em grupos densos, o Google é capaz de processar consultas de pesquisa em velocidades superiores às dos mecanismos de pesquisa tradicionais, que normalmente se baseiam em aves de rapina, galinhas ninhadas ou aves aquáticas de movimento lento para fazer suas classificações relevantes.

Quando uma consulta de pesquisa é enviada ao Google, ela é roteada para uma cooperativa de dados onde monitora as páginas de resultados em flash em velocidades incríveis . Quando um resultado relevante é observado por um dos pombos do cluster, ele atinge uma barra de aço revestida de borracha com o bico, o que atribui à página o valor PigeonRank de um. Para cada selinho, o PigeonRank aumenta . As páginas que recebem mais selos são retornadas na parte superior da página de resultados do usuário com os outros resultados exibidos em hierarquia.

ypercubeᵀᴹ
fonte
6
Nota: Esta página foi publicada em April Fool's Day - 2002
dr jimbob
19

É importante ter em mente algumas coisas sobre o Google:

  • O banco de dados deles é o BigTable proprietário - ele foi projetado pelo GOOGLE para atender exatamente às suas necessidades

  • Seu banco de dados proprietário é construído sobre o sistema de arquivos proprietário - Google File System - ele foi projetado, novamente pelo GOOGLE , para ser facilmente expansível usando hardware comum. Como Aaron mencionou em sua resposta, eles têm um grande número de servidores médios em vez de um pequeno número de servidores muito poderosos.

Eles armazenam tabelas individuais em várias máquinas como uma maneira de tornar o acesso mais rápido - o software deles sabe quais dados estão em qual máquina e, em vez de passar por um disco para localizá-los, pode ir diretamente ao servidor com as informações relevantes.

JNK
fonte
9

Leia " In The Plex: como o Google pensa, funciona e molda nossas vidas ", de Steven Levy . Este livro é uma leitura fascinante sobre todas as coisas do Google e discute em alto nível parte da tecnologia e engenharia por trás da pesquisa. Aaron resume muito bem em sua resposta e o livro de Levy fornecerá mais detalhes sobre como eles fazem isso.

Todd Everett
fonte