Comecei a trabalhar nos tutoriais de mineração de dados estatísticos de Andrew Moore (altamente recomendado para quem mais se aventurar nesse campo). Comecei lendo este PDF extremamente interessante, intitulado "Visão geral introdutória dos algoritmos de detecção de anomalias baseados em séries temporais", nos quais Moore acompanha muitas das técnicas usadas na criação de um algoritmo para detectar surtos de doenças. No meio dos slides, na página 27, ele lista vários outros "métodos de ponta" usados para detectar surtos. O primeiro listado é wavelets . Wikipeida descreve uma wavelet como
uma oscilação em forma de onda com uma amplitude que começa em zero, aumenta e depois volta a zero. Normalmente pode ser visualizado como uma "breve oscilação"
mas não descreve sua aplicação às estatísticas, e minhas pesquisas no Google produzem trabalhos altamente acadêmicos que pressupõem um conhecimento de como as wavelets se relacionam com estatísticas ou livros completos sobre o assunto.
Gostaria de ter um entendimento básico de como as wavelets são aplicadas à detecção de anomalias de séries temporais, da mesma forma que Moore ilustra as outras técnicas em seu tutorial. Alguém pode fornecer uma explicação de como os métodos de detecção usando wavelets funcionam ou um link para um artigo compreensível sobre o assunto?
fonte
As funções básicas de wavelets discretas mais usadas e implementadas (distintas da CWT descrita na resposta de Robin) têm duas boas propriedades que as tornam úteis para a detecção de anomalias:
O que isso significa em termos práticos é que sua decomposição discreta de wavelets analisa as mudanças locais no sinal através de uma variedade de escalas e faixas de frequência. Se você tem (por exemplo) ruído de alta frequência e alta magnitude sobreposto a uma função que exibe uma mudança de baixa magnitude por um período mais longo, a transformação wavelet separará eficientemente essas duas escalas e permitirá que você veja a mudança da linha de base que muitas outras técnicas vão faltar; uma mudança nessa linha de base pode sugerir um surto de doença ou alguma outra mudança de interesse. De várias maneiras, você pode tratar a decomposição em si como mais suave (e houve muito trabalho feito no encolhimento eficiente dos coeficientes de wavelets na estimativa não paramétrica, veja, por exemplo, praticamente qualquer coisa nas wavelets da Donoho). Ao contrário dos métodos puros baseados em frequência, o suporte compacto significa que eles são capazes de lidar com dados não estacionários. Ao contrário dos métodos puramente baseados em tempo, eles permitem alguma filtragem baseada em frequência.
Em termos práticos, para detectar anomalias ou alterar pontos, você aplicaria uma transformação wavelet discreta (provavelmente a variante conhecida como "Maximum Overlap DWT" ou "shift invariant DWT", dependendo de quem você lê) nos dados e procure nos conjuntos de coeficientes de frequência mais baixa para verificar se há mudanças significativas na linha de base. Isso mostrará quando uma alteração de longo prazo está ocorrendo sob qualquer ruído do dia-a-dia. Percival e Walden (veja as referências abaixo) fazem alguns testes para coeficientes estatisticamente significativos que você pode usar para ver se uma mudança como essa é significativa ou não.
Um excelente trabalho de referência para wavelets discretas é Percival e Walden, "Wavelet Methods for Time Series Analysis". Um bom trabalho introdutório é "Introdução às wavelets e transformadas de wavelets, uma cartilha" de Burrus, Gopinath e Guo. Se você tem experiência em engenharia, "Elementos de wavelets para engenheiros e cientistas" é uma boa introdução do ponto de vista do processamento de sinais.
(Editado para incluir os comentários de Robin)
fonte