Eu gosto de ler o ServerFault há um tempo e me deparei com alguns tópicos no Hadoop. Eu tive alguns problemas para descobrir o que ele faz do ponto de vista global.
Portanto, minha pergunta é bem simples: o que é o Hadoop? O que isso faz ? Para que isso é usado ? Por que chuta a bunda?
Edit: Se alguém tiver demonstrações / explicações de casos de uso nos quais o Hadoop foi usado, isso seria fantástico.
Respostas:
Diretamente da boca do cavalo :
Map / Reduce é um paradigma de programação popularizado pelo Google, em que uma tarefa é dividida em pequenas porções e distribuída para um grande número de nós para processamento (mapa), e os resultados são resumidos na resposta final (reduza ) Google e Yahoo usam isso para sua tecnologia de mecanismo de pesquisa, entre outras coisas.
O Hadoop é uma estrutura genérica para implementar esse tipo de esquema de processamento. Quanto ao porquê disso, principalmente porque fornece recursos interessantes, como tolerância a falhas e permite reunir praticamente qualquer tipo de hardware para fazer o processamento. Ele também escala extremamente bem, desde que o seu problema se encaixe no paradigma.
Você pode ler tudo sobre isso no site .
Quanto a alguns exemplos, Paul deu alguns, mas aqui estão mais alguns que você pode fazer que não são tão centrados na Web:
e , em seguida, os resultados são resumidos na etapa "reduzir".
Essencialmente, o modelo funciona muito bem para um problema que pode ser decomposto em cálculos discretos semelhantes que são completamente independentes e pode ser recombinado para produzir um resultado final.
fonte
Os Cloudera têm ótimos vídeos que explicam os princípios por trás do Map Reduce e Hadoop.
http://www.cloudera.com/hadoop-training-basic
Uma das idéias principais por trás do MapReduce é que, para grandes conjuntos de dados, você será vinculado a seus discos, portanto, no Hadoop HDFS, você pode dividir as coisas entre vários nós, permitindo o processamento paralelo.
Alguns usos do Hadoop de interesse dos administradores de sistemas geralmente envolvem o processamento de grandes conjuntos de arquivos de log - só posso postar um link, mas incluem: o Google deve encontrar o seguinte:
fonte
Inicialmente, o hadoop é desenvolvido para grande quantidade de conjuntos de dados no ambiente OLAP.
Com a introdução do Hbase no topo do hadoop, a cana também pode ser usada para o processamento OLAP. O Hadoop é uma estrutura com todos os subcomponentes, como mapa reduzido, hdfs, hbase, pig.
Em primeiro lugar, o artigo com o básico do hadoop em Por que o Hadoop é apresentado .
No Hadoop, armazenamento de dados na forma de arquivos, não nas tabelas, colunas.
fonte