Análise de séries temporais com muitos valores zero

19

Na verdade, esse problema é sobre detecção de incêndio, mas é fortemente análogo a alguns problemas de detecção de decaimento radioativo. Os fenômenos observados são esporádicos e altamente variáveis; assim, uma série temporal consistirá em longas seqüências de zeros interrompidas por valores variáveis.

O objetivo não é apenas capturar eventos (quebras nos zeros), mas caracterizar quantitativamente os próprios eventos. No entanto, os sensores são limitados e, portanto, às vezes registram zero, mesmo que a "realidade" seja diferente de zero. Por esse motivo, os zeros devem ser incluídos ao comparar sensores.

O sensor B pode ser mais sensível que o sensor A, e eu gostaria de poder descrevê-lo estatisticamente. Para esta análise, não tenho "verdade", mas tenho um sensor C, independente dos sensores A&B. Assim, minha expectativa é que uma melhor concordância entre A / B e C indique melhor concordância com a "verdade". (Isso pode parecer instável, mas você terá que confiar em mim - estou em terreno sólido aqui, com base no que é conhecido em outros estudos sobre os sensores).

O problema, então, é como quantificar "uma melhor concordância das séries temporais". A correlação é a escolha óbvia, mas será afetada por todos esses zeros (que não podem ser deixados de fora) e, é claro, desproporcionalmente afetada pelos valores máximos. O RMSE também poderia ser calculado, mas seria fortemente ponderado em relação ao comportamento dos sensores no caso próximo de zero.

P1: Qual é a melhor maneira de aplicar uma escala logarítmica a valores diferentes de zero que serão combinados com zeros em uma análise de séries temporais?

P2: Quais "práticas recomendadas" você pode recomendar para uma análise de séries temporais desse tipo, onde o comportamento em valores diferentes de zero é o foco, mas os valores zero dominam e não podem ser excluídos?

Ed Hyer
fonte

Respostas:

11

Para reafirmar sua pergunta "Como o analista lida com longos períodos sem demanda que não seguem um padrão específico?"

A resposta para sua pergunta é Análise de demanda intermitente ou Análise de dados esparsos. Isso ocorre normalmente quando você tem "muitos zeros" em relação ao número de não-zeros. O problema é que existem duas variáveis ​​aleatórias; o tempo entre os eventos e o tamanho esperado do evento. Como você disse, a autocorrelação (acf) do conjunto completo de leituras não faz sentido devido à sequência de zeros que aumentam falsamente o acf. Você pode buscar tópicos como "método de Croston", que é um procedimento baseado em modelo, e não um procedimento baseado em dados. O método de Croston é vulnerável a outliers e mudanças / tendências / mudanças de nível na taxa de demanda, ou seja, a demanda dividida pelo número de períodos desde a última demanda.Uma abordagem muito mais rigorosa pode ser a busca por "Dados esparsos - dados com espaçamento desigual" ou pesquisas como essa. Uma solução bastante engenhosa foi sugerida pelo Prof. Ramesh Sharda, da OSU, e eu a uso há vários anos na minha prática de consultoria. Se uma série tiver pontos no tempo em que as vendas surgem e longos períodos em que não surgem vendas, é possível converter as vendas em vendas por período, dividindo as vendas observadas pelo número de períodos sem vendas, obtendo uma taxa. É então possível identificar um modelo entre taxa e o intervalo entre as vendas que culminam em uma taxa prevista e um intervalo previsto. Você pode descobrir mais sobre isso em autobox.com e no Google "demanda intermitente" Se uma série tiver pontos no tempo em que as vendas surgem e longos períodos em que não surgem vendas, é possível converter as vendas em vendas por período, dividindo as vendas observadas pelo número de períodos sem vendas, obtendo uma taxa. É então possível identificar um modelo entre taxa e o intervalo entre as vendas que culminam em uma taxa prevista e um intervalo previsto. Você pode descobrir mais sobre isso em autobox.com e no Google "demanda intermitente" Se uma série tiver pontos no tempo em que as vendas surgem e longos períodos em que não surgem vendas, é possível converter as vendas em vendas por período, dividindo as vendas observadas pelo número de períodos sem vendas, obtendo uma taxa. É então possível identificar um modelo entre taxa e o intervalo entre as vendas que culminam em uma taxa prevista e um intervalo previsto. Você pode descobrir mais sobre isso em autobox.com e no Google "demanda intermitente"

IrishStat
fonte
1
Tenho um problema de previsão com demanda intermitente. Me pediram para resolver. Eu sei que existem vários softwares específicos para esse período de previsão, mas não são gratuitos. Você pode me dizer se conhece alguma função embutida no software de código aberto (como R, por exemplo) para resolver esse problema? Estive pesquisando, mas não consegui encontrá-lo até agora ... Obrigado!
Assu
1
@assu: Não conheço nenhum software livre que atenda às suas necessidades.
precisa saber é o seguinte
4
@assu. A croston()função no forecastpacote em R implementará o método de Croston para prever dados de demanda intermitentes.
Rob Hyndman