Estou quase caindo no Cassandra depois de minha pesquisa sobre soluções de armazenamento de dados em grande escala. Mas geralmente se diz que o Hbase é a melhor solução para processamento e análise de dados em grande escala.
Embora ambos tenham o mesmo armazenamento de chave / valor e ambos sejam / possam executar (Cassandra recentemente) a camada do Hadoop, o que torna o Hadoop um candidato melhor quando o processamento / análise é necessário em grandes dados.
Também encontrei bons detalhes sobre ambos em http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/
mas ainda estou procurando vantagens concretas do Hbase.
Embora eu esteja mais convencido sobre o Cassandra por causa de sua simplicidade para adicionar nós e replicação contínua e sem pontos de falha. E também mantém o recurso de índice secundário, então é uma boa vantagem.
O motivo para usar clusters hBase de 100 nós não é porque o HBase não é escalonado para tamanhos maiores. É porque é mais fácil fazer atualizações de software hBase / HDFS de forma contínua, sem desativar todo o serviço. Outro motivo é evitar que um único NameNode seja um SPOF para todo o serviço. Além disso, o HBase está sendo usado para vários serviços (não apenas mensagens FB) e é prudente ter uma abordagem padronizada para configurar vários clusters de HBase com base em uma abordagem de pod de 100 nós. O número 100 é ad hoc, não nos concentramos em se 100 é o ideal ou não.
fonte