Quais estatísticas são preservadas na agregação?

12

Se tivermos uma série temporal longa e de alta resolução, com muito ruído, geralmente faz sentido agregar os dados em uma resolução mais baixa (digamos, valores diários a mensais) para entender melhor o que está acontecendo, removendo efetivamente alguns dos o barulho.

Eu vi pelo menos um papel que, em seguida, aplica-se algumas estatísticas para os dados agregados, incluindo a r2 para uma regressão linear em uma variável separada. Isso é válido? Eu teria pensado que o processo de média modificaria bastante o resultado, devido ao ruído reduzido.

Em geral, algumas estatísticas podem ser aplicadas aos dados agregados de séries temporais e outras não? Se sim, quais são? Aqueles que são combinações lineares, talvez?

naught101
fonte
Relacionado, veja a falácia ecológica .
Andy W
1
sobre o comentário de @cbeleites, acho que há uma resposta teórica aqui - uma expansão de sua sugestão de que as combinações lineares são preservadas. No entanto, em termos práticos de aplicação, é muito difícil tirar uma conclusão geral sobre a validade de uma abordagem e seria necessário um exemplo específico.
9133 Jonathan

Respostas:

6

Eu acho que a pergunta, como no título, é muito ampla para ser respondida de uma maneira útil, tanto mais que provavelmente dependerá do método de agregação e da estatística em questão.

  • Isso se aplica até ao "médio": você tenta preservar a forma e a intensidade do sinal (por exemplo, filtros Savitzky-Golay) ou tenta preservar a área sob o sinal (por exemplo, loess)?

  • As estatísticas relacionadas ao ruído são obviamente afetadas: esse é geralmente o objetivo da agregação.

Eu já vi pelo menos um artigo que aplica algumas estatísticas aos dados agregados [...] Isso é válido? Eu teria pensado que o processo de média modificaria bastante o resultado, devido ao ruído reduzido.

Essa modificação provavelmente é o objetivo da agregação.

Em geral, você pode fazer muitas coisas com seus dados, mas precisa

  • diga o que você está fazendo (e de preferência também por que você faz)
  • mostra a qualidade do modelo resultante (teste com dados independentes)

O que é uma agregação válida também dependerá do seu aplicativo.
Por exemplo: estou trabalhando com dados espectroscópicos. É muito comum agregar espectros únicos em espectros médios: o processo de medição significa certos limites à qualidade dos espectros que posso obter "de uma só vez". No entanto, para muitas aplicações, é perfeitamente válido especificar um procedimento de aquisição que diga que sempre medições repetidas devem ser tomadas e calculadas a média. Por outro lado, se o aplicativo for analítico em tempo real / online ou em linha , como a FIA (análise de injeção de fluxo), isso implica restrições em possíveis esquemas de agregação.n

cbeleites suporta Monica
fonte
5

Em uma configuração de regressão, você pode realmente testar se a agregação simples é a escolha correta. Suponha que você tenha dados mensais dados diários X τ (com os m dias fixos em um mês). Suponha que você esteja interessado em uma regressão:YtXτm

Yt=α+βX¯t+ut,(1)

onde

X¯t=1mh=0m1Xtmh.

tX30(t1)+1,...,X30t

Yt=α+βX¯t(w)+ut,(2)

com

Xt(w)=h=1m1whXtmh.

whwh=g(h,α)gα

wh=1m para estimar e testar as regressões MIDAS em que esse teste é implementado).

Em uma configuração sem regressão, há resultados que mostram que a agregação pode alterar as propriedades da série temporal. Por exemplo, se você agregar processos AR (1) com memória de curto prazo (a correlação entre duas observações da série temporal desaparece rapidamente quando a distância entre elas aumenta), é possível obter um processo com memória de longo prazo.

Portanto, para resumir a resposta, a validade da aplicação das estatísticas nos dados agregados é uma questão estatística. Dependendo do modelo, é possível construir uma hipótese, seja uma aplicação válida ou não.

mpiktas
fonte