Qual é o problema da autocorrelação?

13

Para fazer um prefácio, tenho um fundo matemático bastante profundo, mas nunca lidei com séries temporais ou modelagem estatística. Então você não precisa ser muito gentil comigo :)

Estou lendo este artigo sobre modelagem do uso de energia em edifícios comerciais, e o autor faz esta afirmação:

[A presença de autocorrelação surge] porque o modelo foi desenvolvido a partir de dados de séries temporais de uso de energia, que são inerentemente autocorrelacionados. Qualquer modelo puramente determinístico para dados de séries temporais terá autocorrelação. A autocorrelação diminui se [mais coeficientes de Fourier] forem incluídos no modelo. No entanto, na maioria dos casos, o modelo de Fourier tem CV baixo. O modelo pode, portanto, ser aceitável para propósitos práticos que não exigem alta precisão.

0.) O que significa "qualquer modelo puramente determinístico para dados de séries temporais terá autocorrelação"? Eu posso entender vagamente o que isso significa - por exemplo, como você esperaria prever o próximo ponto da sua série cronológica se tivesse 0 autocorrelação? Este não é um argumento matemático, com certeza, e é por isso que é 0 :)

1.) Fiquei com a impressão de que a autocorrelação basicamente matou seu modelo, mas pensando nisso, não consigo entender por que esse deveria ser o caso. Então, por que a autocorrelação é uma coisa ruim (ou boa)?

2.) A solução que ouvi ao lidar com autocorrelação é diferenciar as séries temporais. Sem tentar ler a mente do autor, por que alguém não faria diferença se existe uma autocorrelação não negligenciável?

3.) Quais limitações as autocorrelações não negligenciáveis ​​colocam em um modelo? Isso é uma suposição em algum lugar (isto é, resíduos normalmente distribuídos ao modelar com regressão linear simples)?

De qualquer forma, desculpe se estas são perguntas básicas e agradeço desde já por ajudar.

BenDundee
fonte

Respostas:

10
  1. Eu acho que o autor provavelmente está falando sobre os resíduos do modelo. Argumento isso por causa de sua afirmação sobre a adição de mais coeficientes de Fourier; se, como acredito, ele estiver ajustando um modelo de fourier, a adição de mais coeficientes reduzirá a autocorrelação dos resíduos à custa de um CV mais alto.

    Se você tiver problemas para visualizar isso, pense no seguinte exemplo: suponha que você tenha o seguinte conjunto de dados de 100 pontos, proveniente de um modelo de fourier com dois coeficientes e com ruído gaussiano branco adicional:

    Os pontos de dados

    O gráfico a seguir mostra dois ajustes: um feito com 2 coeficientes de fourier e outro feito com 200 coeficientes de fourier:

    Encaixa

    Como você pode ver, os 200 coeficientes de fourier se ajustam melhor aos DATAPOINTS, enquanto o ajuste de 2 coeficientes (o modelo 'real') se encaixa melhor ao MODELO. Isso implica que a autocorrelação dos resíduos do modelo com 200 coeficientes será quase certamente próxima de zero em todos os intervalos que os resíduos do modelo com 2 coeficientes, porque o modelo com 200 coeficientes se encaixa exatamente em quase todos os pontos de dados (ou seja, os resíduos serão quase todos os zeros). No entanto, o que você acha que acontecerá se você deixar, digamos, 10 pontos de dados fora da amostra e se encaixar nos mesmos modelos? O modelo com 2 coeficientes preverá melhor os pontos de dados que você retirou da amostra! Assim, produzirá um erro CV mais baixo em oposição ao modelo de 200 coeficientes; isso é chamado super adaptação. A razão por trás dessa 'mágica' é porque o CV realmente tenta medir é um erro de previsão , ou seja, quão bem o seu modelo prevê pontos de dados que não estão no seu conjunto de dados.

  2. Nesse contexto, a autocorrelação nos resíduos é 'ruim', porque significa que você não está modelando a correlação entre os pontos de dados suficientemente bem. A principal razão pela qual as pessoas não diferenciam a série é porque elas realmente querem modelar o processo subjacente como ele é. Um difere da série temporal geralmente para se livrar de periodicidades ou tendências, mas se essa periodicidade ou tendência é realmente o que você está tentando modelar, diferenciá-las pode parecer uma opção de último recurso (ou uma opção para modelar os resíduos com um processo estocástico mais complexo).
  3. Isso realmente depende da área em que você está trabalhando. Também poderia ser um problema com o modelo determinístico. No entanto, dependendo da forma da autocorrelação, ela pode ser vista facilmente quando a autocorrelação ocorre devido a, por exemplo, ruído de oscilação, ruído semelhante ao ARMA ou se é uma fonte periódica subjacente residual (nesse caso, você talvez queira aumentar o número de coeficientes de Fourier).
Néstor
fonte
Agradecemos sua resposta e, se estiver disposto, gostaria de tentar digerir essas informações de cada vez. Para 1.), existe uma maneira intuitiva de entender por que incluir mais coeficientes de Fourier reduz a autocorrelação e aumenta o CV (presumo que este seja o CV dos resíduos)?
precisa saber é o seguinte
1
Eu adicionei um exemplo. Espero que ajude. E sim, ele está se referindo ao CV dos resíduos.
Néstor
Ahh ok, acho que estou vendo. Isso está relacionado ao que eu perguntaria em relação a 2. Como alguém poderia aplicar patches (genericamente) nesse modelo para entender melhor a correlação? Você poderia adicionar uma restrição sobre a matriz de correlação dos coeficientes de Fourier?
21413 BenDundee
1
Essa é uma tarefa difícil em que também estou. Especialmente nos modelos determinísticos periódicos, fica realmente difícil saber que tipo de modelo de ruído usar. O grande problema é que você não conhece a priori o número de coeficientes do modelo de Fourier; portanto, são variáveis ​​aleatórias que você também precisa modelar. Na presença de um número baixo de pontos de dados, eu definitivamente daria um MCMC de salto reversível para modelar isso. Eu tentaria modelos de ruído diferentes e compararia o AIC / BIC entre eles. Para grandes conjuntos de dados, no entanto, isso é inviável.
Néstor
3

Achei este artigo ' Regressões espúrias em econometria ' útil ao tentar entender por que é necessário eliminar tendências. Essencialmente, se duas variáveis ​​são tendências, elas co-variam, o que é uma receita para problemas.

conjecturas
fonte