Entendo que uma série temporal estacionária é aquela cuja média e variação são constantes ao longo do tempo. Alguém pode explicar por que precisamos garantir que nosso conjunto de dados esteja estacionário antes que possamos executar diferentes modelos ARIMA ou ARM nele? Isso também se aplica a modelos de regressão normais em que a autocorrelação e / ou o tempo não são um fator?
92
Respostas:
A estacionariedade é um tipo de estrutura de dependência.
Suponha que temos um dado . A suposição mais básica é que são independentes, ou seja, temos uma amostra. A independência é uma propriedade agradável, pois, usando-a, podemos obter muitos resultados úteis. O problema é que, às vezes (ou frequentemente, dependendo da exibição), essa propriedade não é válida.X iX1,...,Xn Xi
Agora a independência é uma propriedade única, duas variáveis aleatórias podem ser independentes apenas de uma maneira, mas podem ser dependentes de várias maneiras. Portanto, a estacionariedade é uma maneira de modelar a estrutura de dependência. Acontece que muitos bons resultados, válidos para variáveis aleatórias independentes (lei dos grandes números, teorema do limite central, para citar alguns), são válidos para variáveis aleatórias estacionárias (devemos dizer estritamente sequências). E, é claro, muitos dados podem ser considerados estacionários; portanto, o conceito de estacionariedade é muito importante na modelagem de dados não independentes.
Quando determinamos que temos estacionariedade, naturalmente queremos modelá-la. É aqui que os modelos ARMA entram. Acontece que qualquer dado estacionário pode ser aproximado com o modelo ARMA estacionário, graças ao teorema da decomposição de Wold . É por isso que os modelos ARMA são muito populares e é por isso que precisamos garantir que a série seja estacionária para usá-los.
Agora, novamente, a mesma história se aplica à independência e dependência. A estacionariedade é definida de forma exclusiva, ou seja, os dados são estacionários ou não, portanto, existe apenas uma maneira de estacionar os dados, mas há muitas maneiras de não estacionários. Mais uma vez, muitos dados ficam estacionários após certa transformação. O modelo ARIMA é um modelo para não estacionariedade. Pressupõe que os dados se tornam estacionários após a diferenciação.
No contexto de regressão, a estacionariedade é importante, pois os mesmos resultados que se aplicam a dados independentes são válidos se os dados forem estacionários.
fonte
Em que quantidades normalmente estamos interessados quando realizamos análises estatísticas em séries temporais? Nós queremos saber
Como calculamos essas coisas? Usando uma média em vários períodos de tempo.
A média entre vários períodos de tempo é apenas informativa se o valor esperado for o mesmo nesses períodos. Se esses parâmetros populacionais podem variar, o que realmente estamos estimando calculando uma média ao longo do tempo?
A estacionariedade (fraca) requer que essas quantidades populacionais sejam as mesmas ao longo do tempo, tornando a média da amostra uma maneira razoável de estimar.
Além disso, processos estacionários evitam o problema de regressão espúria .
fonte
Uma idéia subjacente no aprendizado estatístico é que você pode aprender repetindo um experimento. Por exemplo, podemos continuar lançando uma tachinha para saber a probabilidade de uma tachinha cair em sua cabeça.
No contexto de séries temporais, observamos uma única execução de um processo estocástico, em vez de repetidas execuções do processo estocástico. Observamos um experimento longo, em vez de vários experimentos independentes.
Precisamos de estacionariedade e ergodicidade, para que observar um longo processo de um processo estocástico seja semelhante a observar muitas execuções independentes de um processo estocástico.
Algumas definições (imprecisas)
Seja um espaço de amostra. Um processo estocástico é uma função do tempo e do resultado .Ω {Yt} t∈{1,2,3,…} ω∈Ω
Uma questão fundamental em séries temporais
No Statistics 101, aprendemos sobre uma série de variáveis independentes e identicamente distribuídas , , etc ... Observamos vários experimentos idênticos onde um é aleatoriamente escolhido e isso nos permite aprender sobre variável aleatória . Pela Lei dos Grandes Números , temos convergindo quase certamente para .X1 X2 X3 i=1,…,n ωi∈Ω X 1n∑ni=1Xi E[X]
Uma diferença fundamental na configuração das séries temporais é que estamos observando várias observações ao longo do tempo vez de vários desenhos de .t Ω
No caso geral, pode não convergir para nada!1T∑Tt=1Yt
Para que várias observações ao longo do tempo realizem uma tarefa semelhante à de vários desenhos do espaço da amostra , precisamos de estacionariedade e ergodicidade .
Se existir uma média incondicional e as condições para o teorema ergódico forem satisfeitas, a série temporal da média da amostra convergirá para a média incondicional .E[Y] 1T∑Tt=1Yt E[Y]
Exemplo 1: falha de estacionariedade
Seja o processo degenerado . Podemos ver que não é estacionário (a distribuição conjunta não é invariante no tempo).{Yt} Yt=t {Yt}
Seja seja a média da amostra da série temporal, e é óbvio que não converge para algo como : . A média de não existe e não converge para nada como .St=1t∑ti=1Yi St t→∞ S1=1,S2=32,S3=2,…,St=t+12 Yt St t→∞
Exemplo: falha de ergodicidade
Seja o resultado de um único lançamento de moeda. Seja para todos os , isto é, ou .X Yt=X t {Yt}=(0,0,0,0,0,0,0,…) {Yt}=(1,1,1,1,1,1,1,…
Embora , a amostra da série temporal signifique não dará você é a média de .E[Yt]=12 St=1t∑ti=1Yi Yt
fonte
Para adicionar uma resposta de alto nível a outras respostas boas, porém mais detalhadas, a estacionariedade é importante porque, na sua ausência, um modelo que descreve os dados varia em precisão em diferentes momentos. Como tal, a estacionariedade é necessária para estatísticas de amostra, como médias, variações e correlações, para descrever com precisão os dados em todos os pontos de interesse do tempo.
Olhando para os gráficos das séries temporais abaixo, é possível (espero) ver como a média e a variação de um determinado segmento de tempo fariam um bom trabalho representando toda a série temporal estacionária, mas um trabalho relativamente ruim representando toda a série temporal não estacionária. Por exemplo, a média das séries temporais não estacionárias é muito menor que e sua variação é muito maior nesse intervalo do que no intervalo de .600<t<800 200<t<400
fonte
Primeiro de tudo, os processos ARIMA (p, 1, q) não são estacionários. Essas são as chamadas séries integradas, por exemplo, é o processo ARIMA (0,1,0) ou I (1), também caminhada aleatória ou raiz da unidade. Então, não, você não precisa de todos eles estacionários.xt=xt−1+et
No entanto, geralmente procuramos estacionariedade. Por quê?
Considere o problema de previsão. Como você prevê? Se amanhã tudo estiver diferente, é impossível prever, porque tudo será diferente. Portanto, a chave para a previsão é encontrar algo que será o mesmo amanhã e estendê- lo para amanhã. Que algo pode ser qualquer coisa. Vou dar alguns exemplos.
No modelo I (1) acima, geralmente assumimos (ou esperamos) que a distribuição de erros seja a mesma hoje e amanhã: . Portanto, neste caso, estamos dizendo que amanhã a distribuição ainda será normal e que sua média e variância ainda serão as mesmas 0 e . Isso ainda não deixou a série estacionária, mas encontramos a parte invariável no processo. A seguir, se você observar a primeira diferença: - esse gato é estacionário. No entanto, entenda que o objetivo não era realmente encontrar a série estacionáriaet∼N(0,σ2) σ2 Δxt≡xt−xt−1=et Δxt , mas encontrar algo invariável, que era a distribuição de erros. Acontece apenas que, na série estacionária, por definição, haverá partes invariantes, como média e variância incondicionais.
Outro exemplo, digamos que as séries verdadeiras são: . Digamos, tudo o que sabemos sobre os erros é que sua média é zero: . Agora, podemos prever novamente! Tudo o que precisamos é estimar a taxa de crescimento , que é invariável e a média de erros. Sempre que encontrar algo invariável, você pode prever. E [ e t ] = 0 αxt=αt+et E[et]=0 α
Para a previsão, precisamos absolutamente encontrar o componente constante (invariável no tempo) da série, caso contrário, é impossível prever por definição. A estacionariedade é apenas um caso particular da invariância.
fonte
Como o ARIMA está regredindo em sua maior parte, ele usa um tipo de regressão múltipla auto-induzida que seria desnecessariamente influenciada por uma forte tendência ou sazonalidade. Essa técnica de regressão múltipla é baseada em valores de séries temporais anteriores, especialmente nos períodos mais recentes, e permite extrair uma "inter-relação" muito interessante entre vários valores passados que trabalham para explicar um valor futuro.
fonte
A série temporal trata da análise da maneira como os valores de uma série dependem dos valores anteriores. Como sugerido pelo SRKX, pode-se diferenciar ou desestimular ou desassociar uma série não estacionária, mas não desnecessariamente!) Para criar uma série estacionária. A análise ARMA requer estacionariedade. é estritamente estacionário, se a distribuição de é idêntico ao do para cada e( X t + 1 , … , X t + k ) ( X 1 , … , X k ) t kX (Xt+1,…,Xt+k) (X1,…,Xk) t k . Do Wiki: um processo estacionário (ou processo estacionário estrito (ly) ou processo estacionário forte) é um processo estocástico cuja distribuição de probabilidade conjunta não muda quando deslocada no tempo ou no espaço. Consequentemente, parâmetros como média e variância, se existirem, também não mudam com o tempo ou a posição. Além disso, como o Cardinal apontou corretamente abaixo, a função de autocorrelação deve ser invariável ao longo do tempo (o que significa que a função de covariância é constante ao longo do tempo) converte-se em parâmetros do modelo ARMA que são invariantes / constantes para todos os intervalos de tempo.
A idéia de estacionariedade do modelo ARMA está intimamente ligada à idéia de invertibilidade.
Considere um modelo com a forma . Este modelo é explosivo, pois o polinômio tem raízes dentro do círculo unitário e, portanto, viola um requisito. Um modelo que tem raízes dentro do círculo unitário significa que "dados mais antigos" são mais importantes que "dados mais recentes", o que obviamente não faz sentido.( 1 - 1,1 B )y(t)=1.1y(t−1) (1−1.1B)
fonte
ARMA e ARIMA são construídos com a suposição de que a série é estacionária. Se a série não for, a previsão estará incorreta.
As estatísticas de amostra - média, variância, covariância - são úteis como descritores de comportamento futuro apenas se a série for estacionária. Por exemplo, se a série aumentar consistentemente ao longo do tempo, a média e a variação da amostra crescerão com o tamanho da amostra e sempre subestimarão a média e a variação nos períodos futuros. É importante ter cuidado ao tentar extrapolar modelos de regressão ajustados a dados não estacionários.
fonte
Na minha opinião, o processo estocástico é o processo que é governado por três propriedades estatísticas que devem ser variáveis no tempo. São variância média e função de correlação automática. Embora os dois primeiros não digam nada sobre a evolução do processo no tempo, então deve-se considerar a terceira propriedade, que é a função de correlação automática, que indica como a dependência decai à medida que o tempo avança (lag).
fonte
Para resolver qualquer coisa, precisamos modelar as equações matematicamente usando estática.
Durante o processo de conversão, obteremos uma tendência e sazonalidade
fonte