Estou tentando configurar uma infraestrutura de big data usando Hadoop, Hive, Elastic Search (entre outros) e gostaria de executar alguns algoritmos em determinados conjuntos de dados. Eu gostaria que os algoritmos fossem escalonáveis, então isso exclui o uso de ferramentas como Weka, R ou RHadoop. A Biblioteca Apache Mahout parece ser uma boa opção e apresenta algoritmos para tarefas de regressão e cluster .
O que estou lutando para encontrar é uma solução para detecção de anomalias ou outlier.
Como o Mahout apresenta modelos ocultos de Markov e uma variedade de técnicas de agrupamento (incluindo o K-Means), fiquei pensando se seria possível criar um modelo para detectar discrepâncias em séries temporais, usando qualquer uma dessas opções. Ficaria muito grato se alguém experiente nisso pudesse me aconselhar.
- se for possível, e caso seja
- como fazer, mais
- uma estimativa do esforço envolvido e
- precisão / problemas dessa abordagem.
fonte
Respostas:
Eu daria uma olhada no algoritmo t-digest . Ele foi mesclado ao mahout e também parte de algumas outras bibliotecas para o streaming de big data. Você pode obter mais informações sobre esse algoritmo em particular e sobre a detecção de anomalias de big data em geral nos próximos recursos:
fonte
Você pode consultar minha resposta relacionada ao método de detecção de anomalia h2o R ou Python no stackexchange , uma vez que também é escalável.
fonte