Detecção de outlier / anomalia escalável

10

Estou tentando configurar uma infraestrutura de big data usando Hadoop, Hive, Elastic Search (entre outros) e gostaria de executar alguns algoritmos em determinados conjuntos de dados. Eu gostaria que os algoritmos fossem escalonáveis, então isso exclui o uso de ferramentas como Weka, R ou RHadoop. A Biblioteca Apache Mahout parece ser uma boa opção e apresenta algoritmos para tarefas de regressão e cluster .

O que estou lutando para encontrar é uma solução para detecção de anomalias ou outlier.

Como o Mahout apresenta modelos ocultos de Markov e uma variedade de técnicas de agrupamento (incluindo o K-Means), fiquei pensando se seria possível criar um modelo para detectar discrepâncias em séries temporais, usando qualquer uma dessas opções. Ficaria muito grato se alguém experiente nisso pudesse me aconselhar.

  1. se for possível, e caso seja
  2. como fazer, mais
  3. uma estimativa do esforço envolvido e
  4. precisão / problemas dessa abordagem.
doublebyte
fonte
11
Isso é muito vago para ser respondido. As séries temporais são muito diferentes para apenas jogar K-means nelas e obter algo útil. É fortemente depende de seus dados.
QuIT - Anony-Mousse
11
Para detecção de outlier, dê uma olhada nos algoritmos no ELKI. Essa parece ser a coleção mais completa de detecção de outlier.
QuIT - Anony-Mousse
As versões mais recentes do Elasticsearch possuem detecção de anomalias de séries temporais incorporadas (acho que você precisa comprar o X-Pack). Não tenho certeza de quais algoritmos eles estão usando, mas pode valer a pena investigar uma solução pronta para uso.
Tom

Respostas:

7

Eu daria uma olhada no algoritmo t-digest . Ele foi mesclado ao mahout e também parte de algumas outras bibliotecas para o streaming de big data. Você pode obter mais informações sobre esse algoritmo em particular e sobre a detecção de anomalias de big data em geral nos próximos recursos:

  1. Livro prático de detecção de anomalias de aprendizado de máquina.
  2. Webinar: Detecção de anomalias quando você não sabe o que precisa encontrar
  3. Detecção de anomalias no Elasticsearch .
  4. Fraude de bilhões de dólares usando detecção de anomalias: uma abordagem de processamento de sinais usando dados de Argyle na plataforma de dados Hortonworks com Accumulo
prudenko
fonte
Como o digerido t se compara ao algoritmo do quadrado p?
David Marx
Obrigado pela resposta: este é um modelo simples para calcular quantis extremos e acho que ele atenderá às minhas necessidades. No entanto, para séries temporais mais complexas que não têm uma distribuição quase estacionária, essa abordagem pode falhar, e é aí que acho que precisaríamos de algo adaptável, como uma cadeia de Markov.
doublebyte 20/10
0

Você pode consultar minha resposta relacionada ao método de detecção de anomalia h2o R ou Python no stackexchange , uma vez que também é escalável.

0xF
fonte