O algoritmo do Twitter é baseado em
Rosner, B., (maio de 1983), "Pontos percentuais para um procedimento generalizado de descargas excessivas de ESD", Technometrics, 25 (2), pp. 165-172
Tenho certeza de que houve muitas técnicas e avanços desde 1983! Eu testei em meus dados internos e a detecção de anomalias do Twitter não identifica discrepâncias óbvias. Eu usaria outras abordagens também para testar outliers em séries temporais. O melhor que me deparei é o procedimento de detecção de outlier de Tsay, implementado no software SAS / SPSS / Autobox e SCA. Todos os quais são sistemas comerciais. Há também
um pacote tsoutliers que é ótimo, mas precisa de especificação do arima
modelo para funcionar com eficiência. Eu tive problemas com seu padrão auto.arima
no que diz respeito à otimização e seleção de modelos.
O artigo de Tsay é um trabalho seminal na detecção de outlier em séries temporais. Revista líder em pesquisa de previsão O International Journal of Forecasting mencionou que o artigo de Tsay é um dos trabalhos mais citados e mais influentes em um artigo vinculado acima (também veja abaixo). A difusão deste importante trabalho e outros algoritmos de detecção de outlier em software de previsão (especialmente em software de código aberto) é uma raridade.
Encontrei algumas fontes que podem ajudá-lo, mas elas não serão tão fáceis / convenientes quanto executar um script R sobre seus dados: - A Numenta possui uma plataforma NuPIC de código aberto , usada para muitas coisas, incluindo detecção de anomalias . - O Projeto Atlas da Netflix lançará em breve uma ferramenta de detecção de anomalias / outlier de código aberto. - O Prelert possui um mecanismo de detecção de anomalias que vem como um aplicativo do lado do servidor. Seu teste oferece uso limitado, o que pode satisfazer suas necessidades.
Como alternativa, minha empresa, Insignum , possui um produto em versão beta que ingere dados de séries temporais e detecta anomalias de forma totalmente automatizada e você simplesmente recebe alertas por e-mail quando são detectadas anomalias. Entre em contato no Twitter ou no Linkedin e ficarei feliz em lhe contar mais.
fonte
A Autobox (minha empresa) fornece detecção de outlier. O algoritmo do Twitter obtém os maiores valores discrepantes, mas perde os menores em comparação com o Autobox .
Demora muito tempo para ser executado, mas os resultados são melhores para encontrar os outliers menores e também as mudanças na sazonalidade, que também são outliers. Abaixo está o modelo que encontrou 79 discrepantes usando as primeiras 8.560 observações de 14.398 observações originais. A versão padrão chega ao máximo em 10.000 observações, mas pode ser modificada para mais, mas não há motivo real para ter tantos dados assim mesmo quando você deseja identificar e responder a discrepâncias.
Fomos influenciados pelo trabalho realizado por Tsay em discrepâncias, mudanças de nível e alteração de variância e o trabalho de Chow sobre alterações de parâmetros, juntamente com nosso próprio trabalho em detectar alterações na sazonalidade,
Se você baixar a avaliação de 30 dias e carregar os dados de exemplo do Twitter, especificar a frequência como 60 e salvar 3 arquivos de acionador na pasta de instalação (noparcon.afs, novarcon.afs, notrend.afs) e criar um arquivo chamado stepupde. afs com 100.
fonte