Gostaria de configurar um algoritmo para detectar uma anomalia em séries temporais, e pretendo usar o cluster para isso.
Por que devo usar uma matriz de distância para agrupar e não os dados brutos de séries temporais ?,
Para a detecção da anomalia, usarei o cluster baseado em densidade, um algoritmo como DBscan, então isso funcionaria nesse caso? Existe uma versão online para streaming de dados?
Gostaria de detectar a anomalia antes que ela aconteça; portanto, usar um algoritmo de detecção de tendência (ARIMA) seria uma boa opção?
time-series
clustering
trend
napsterockoeur
fonte
fonte
Respostas:
Em relação à sua primeira pergunta, recomendo que você leia este famoso artigo (O agrupamento de subseqüências de séries temporais não tem sentido) antes de fazer agrupamentos em séries temporais. Está claramente escrito e ilustra muitas armadilhas que você deseja evitar.
fonte
A detecção de anomalias ou "Intervention Detection" foi defendida pelo GCTiao e outros. Fazer ciência é buscar padrões repetidos. Detectar anomalias é identificar valores que não seguem padrões repetidos. Aprendemos com Newton: "Quem conhece os caminhos da natureza notará mais facilmente seus desvios e, por outro lado, quem conhece seus desvios descreverá com mais precisão seus caminhos". Aprende-se as regras observando quando as regras atuais falham. Considere a série temporal 1,9,1,9,1,9,5,9. Para identificar a anomalia, é necessário ter um padrão. O "5" é tanto uma anomalia quanto "14" seria. Para identificar o padrão, basta usar o ARIMA e, neste caso, a "anomalia" se torna óbvia. Experimente diferentes softwares / abordagens e veja qual deles sugere um modelo ARIMA de ordem 1,0, 0 com um coeficiente de -1,0. Use os procedimentos do google / search para encontrar "arima automático" ou "detecção automática de intervenção". Você pode se decepcionar com coisas grátis, pois pode valer a pena o que você paga por isso. Escrever você mesmo pode ser interessante se você tiver um histórico pesado de séries temporais e alguns anos a perder. Existem sérias limitações nos métodos baseados em distânciahttp://www3.ntu.edu.sg/SCE/pakdd2006/tutorial/chawla_tutorial_pakddslides.pdf
fonte