Erro em cascata no Apache Storm

Analisando a apresentação e o material do Summingbird pelo Twitter, um dos motivos mencionados para o uso de clusters Storm e Hadoop juntos no Summingbird é que o processamento através do Storm resulta em cascata de erros. Para evitar essa cascata de erro e acumulação, o cluster Hadoop é usado para processar em lote os dados e descartar os resultados do Storm após os mesmos dados serem processados pelo Hadoop.

Quais são as razões para a geração desse acúmulo de erros? e por que não está presente no Hadoop? Como não trabalhei com o Storm, não sei as razões para isso. É porque o Storm usa algum algoritmo aproximado para processar os dados para processá-los em tempo real? ou a causa é outra coisa?

bigdata apache-hadoop mbbce
fonte

Respostas:

O Twitter usa o Storm para processamento de dados em tempo real. Problemas podem ocorrer com dados em tempo real. Os sistemas podem cair. Os dados podem ser inadvertidamente processados duas vezes. Conexões de rede podem ser perdidas. Muita coisa pode acontecer em um sistema em tempo real.

Eles usam o hadoop para processar dados históricos de maneira confiável. Não sei detalhes específicos, mas, por exemplo, obter informações sólidas de logs agregados é provavelmente mais confiável do que anexar ao fluxo.

Se eles simplesmente confiassem no Storm para tudo - o Storm teria problemas devido à natureza de fornecer informações em tempo real em grande escala. Se eles se basearam no hadoop para tudo, há muita latência envolvida. Combinar os dois com o Summingbird é o próximo passo lógico.

Steve Kallestad
fonte