Erro em cascata no Apache Storm

8

Analisando a apresentação e o material do Summingbird pelo Twitter, um dos motivos mencionados para o uso de clusters Storm e Hadoop juntos no Summingbird é que o processamento através do Storm resulta em cascata de erros. Para evitar essa cascata de erro e acumulação, o cluster Hadoop é usado para processar em lote os dados e descartar os resultados do Storm após os mesmos dados serem processados ​​pelo Hadoop.

Quais são as razões para a geração desse acúmulo de erros? e por que não está presente no Hadoop? Como não trabalhei com o Storm, não sei as razões para isso. É porque o Storm usa algum algoritmo aproximado para processar os dados para processá-los em tempo real? ou a causa é outra coisa?

mbbce
fonte

Respostas:

4

O Twitter usa o Storm para processamento de dados em tempo real. Problemas podem ocorrer com dados em tempo real. Os sistemas podem cair. Os dados podem ser inadvertidamente processados ​​duas vezes. Conexões de rede podem ser perdidas. Muita coisa pode acontecer em um sistema em tempo real.

Eles usam o hadoop para processar dados históricos de maneira confiável. Não sei detalhes específicos, mas, por exemplo, obter informações sólidas de logs agregados é provavelmente mais confiável do que anexar ao fluxo.

Se eles simplesmente confiassem no Storm para tudo - o Storm teria problemas devido à natureza de fornecer informações em tempo real em grande escala. Se eles se basearam no hadoop para tudo, há muita latência envolvida. Combinar os dois com o Summingbird é o próximo passo lógico.

Steve Kallestad
fonte