Alguém sabe como o Google ou o Yahoo realizam pesquisas por palavras-chave em quantidades muito grandes de dados? Que tipo de banco de dados ou tecnologias eles empregam para isso?
Demora alguns milissegundos, mas eles têm mais de um bilhão de páginas indexadas.
database-design
full-text-search
rkosegi
fonte
fonte
Respostas:
Tenho certeza de que há uma combinação de coisas:
muito disso - os dados são distribuídos e replicados em muitos nós e em diferentes data centers
fonte
Pombos .
O coração da tecnologia de pesquisa do Google é o PigeonRank ™ , um sistema de classificação de páginas da web desenvolvido pelos fundadores do Google, Larry Page e Sergey Brin, da Stanford University:
fonte
É importante ter em mente algumas coisas sobre o Google:
O banco de dados deles é o BigTable proprietário - ele foi projetado pelo GOOGLE para atender exatamente às suas necessidades
Seu banco de dados proprietário é construído sobre o sistema de arquivos proprietário - Google File System - ele foi projetado, novamente pelo GOOGLE , para ser facilmente expansível usando hardware comum. Como Aaron mencionou em sua resposta, eles têm um grande número de servidores médios em vez de um pequeno número de servidores muito poderosos.
Eles armazenam tabelas individuais em várias máquinas como uma maneira de tornar o acesso mais rápido - o software deles sabe quais dados estão em qual máquina e, em vez de passar por um disco para localizá-los, pode ir diretamente ao servidor com as informações relevantes.
fonte
O Google não usa a tecnologia tradicional de banco de dados relacional. Ele desenvolveu sua própria tecnologia, grande mesa e mapa reduzir. Os trabalhos de pesquisa originais estão aqui: Big Table e Map / Reduce . Também é interessante a tabela de cadeias classificadas SSTable .
Tecnologia semelhante agora é usada no hadoop e nos bancos de dados NoSQL .
fonte
Leia " In The Plex: como o Google pensa, funciona e molda nossas vidas ", de Steven Levy . Este livro é uma leitura fascinante sobre todas as coisas do Google e discute em alto nível parte da tecnologia e engenharia por trás da pesquisa. Aaron resume muito bem em sua resposta e o livro de Levy fornecerá mais detalhes sobre como eles fazem isso.
fonte