Analisando a apresentação e o material do Summingbird pelo Twitter, um dos motivos mencionados para o uso de clusters Storm e Hadoop juntos no Summingbird é que o processamento através do Storm resulta em cascata de erros. Para evitar essa cascata de erro e acumulação, o cluster Hadoop é usado para processar em lote os dados e descartar os resultados do Storm após os mesmos dados serem processados pelo Hadoop.
Quais são as razões para a geração desse acúmulo de erros? e por que não está presente no Hadoop? Como não trabalhei com o Storm, não sei as razões para isso. É porque o Storm usa algum algoritmo aproximado para processar os dados para processá-los em tempo real? ou a causa é outra coisa?
fonte