Como preencher dados ausentes em séries temporais?

16

Eu tenho um grande conjunto de dados de poluição que foram registrados a cada 10 minutos durante 2 anos, no entanto, existem várias lacunas nos dados (incluindo algumas que duram algumas semanas por vez).

Os dados parecem bastante sazonais e há uma grande variação durante o dia em comparação com a noite em que os valores não apresentam muita variação e os pontos de dados são mais baixos.

Eu considerei ajustar um modelo de loess para os subconjuntos diurnos e noturnos separadamente (como há uma diferença óbvia entre eles) e, em seguida, prever os valores dos dados ausentes e preencher esses pontos.

Fiquei me perguntando se essa é uma maneira adequada de abordar esse problema e também se é necessário adicionar variação local aos pontos previstos.

Jamesm131
fonte

Respostas:

21

A resposta dependerá do seu desenho de estudo (por exemplo, séries temporais transversais? Séries temporais de coorte, séries temporais de coortes seriais?). Honaker e King desenvolveram uma abordagem útil para séries temporais transversais (possivelmente úteis para séries temporais de coortes seriais, dependendo de suas suposições), incluindo o pacote R Amelia II para imputar esses dados. Enquanto isso, a Spratt & Co. descreveram uma abordagem diferente que pode ser usada em alguns projetos de séries temporais de coorte, mas é escassa nas implementações de software.

UMA desenho de série temporal transversal (também conhecido como desenho de estudo em painel) é aquele em que a (s) população (ões) é (são) amostrada (e por ano) anualmente, usando o mesmo protocolo de estudo (por exemplo, mesmas variáveis, instrumentos etc.) ) Se a estratégia de amostragem é representativa, esses tipos de dados produzem um quadro anual (uma medição por participante ou sujeito) das distribuições dessas variáveis ​​para cada população do estudo.

Um desenho de série temporal de coorte (também conhecido como desenho de estudo de coortes repetidas, desenho de estudo longitudinal, também chamado de desenho de estudo de painel) é aquele em que unidades de análise individuais são amostradas uma vez e seguidas por um longo período de tempo. Os indivíduos podem ser amostrados de forma representativa de uma ou mais populações. Contudo, uma amostra representativa de séries temporais de coorte se tornará um representante cada vez mais pobre da população-alvo (pelo menos nas populações humanas) com o passar do tempo, devido ao fato de as pessoas nascerem ou envelhecerem na população-alvo e morrerem ou envelhecerem junto a ela. com imigração e emigração.

Um design de série temporal de coortes seriais (também conhecido como coortes repetidas, com várias e múltiplas, ou design de estudo em painel) é aquele em que uma (s) população (ões) é (são) amostrada (e por ano) anualmente, usando o mesmo protocolo de estudo ( por exemplo, mesmas variáveis, instrumentos, etc.), que mede unidades individuais de análise dentro de uma população em dois pontos do tempo durante o período (por exemplo, durante o ano), a fim de criar medidas de taxa de variação. Se a estratégia de amostragem é representativa, esses tipos de dados produzem uma imagem anual das taxas de mudança nessas variáveis ​​para cada população no estudo.

Referências
Honaker, J. e King, G. (2010). O que fazer com os valores ausentes nos dados de seção transversal de séries temporais . American Journal of Political Science , 54 (2): 561–581.

Spratt, M., Carpenter, J., Sterne, JAC, Carlin, JB, Heron, J., Henderson, J. e Tilling, K. (2010). Estratégias para imputação múltipla em estudos longitudinais . American Journal of Epidemiology , 172 (4): 478–4876.

Alexis
fonte
Obrigado por sua resposta. Fiquei imaginando se você poderia definir os diferentes tipos de séries temporais (coorte, seção transversal etc.), pois sou relativamente novo nesse tipo de estudo e nunca vi esses termos antes.
Jamesm131
@ Jamesm131 Veja minha resposta editada.
Alexis #
7

você pode usar o pacote imputeTS no R. Acredito que os dados nos quais você está trabalhando são séries temporais uni-variadas. O pacote imputeTS é especializado em imputação (univariada) de séries temporais. Ele oferece várias implementações diferentes de algoritmos de imputação. Além dos algoritmos de imputação, o pacote também fornece funções de plotagem e impressão de estatísticas de dados ausentes. Bem, eu recomendo que você analise os modelos de espaço de estado em busca de valores ausentes . Este pacote deve ajudá-lo com sua análise.

GD_N
fonte