Entendo que, se um processo depende de valores anteriores, ele é um processo de recuperação garantida. Se depender de erros anteriores, é um processo de MA.
Quando ocorreria uma dessas duas situações? Alguém tem um exemplo sólido que ilumine a questão subjacente a respeito do que significa para um processo ser melhor modelado como MA vs AR?
time-series
autoregressive
moving-average
Matt O'Brien
fonte
fonte
Respostas:
Um resultado importante e útil é o teorema da representação de Wold (às vezes chamado de decomposição de Wold), que diz que todas as séries temporais de covariância-estacionáriasYt pode ser escrita como a soma de duas séries de tempo, uma determinística e um estocástico.
O segundo termo é um MA infinito.
(Também é o caso de um MA invertível pode ser gravado como um processo AR infinito.)
Isso sugere que, se a série for covariância-estacionária , e se assumirmos que você pode identificar a parte determinística, poderá sempre escrever a parte estocástica como um processo de MA. Da mesma forma, se o MA satisfaz a condição de invertibilidade, você sempre pode escrevê-lo como um processo de recuperação garantida.
Se você tiver o processo escrito em um formulário, poderá convertê-lo para outro formulário.
Portanto, pelo menos em um sentido, para séries estacionárias de covariância, geralmente AR ou MA serão apropriadas.
Obviamente, na prática, preferimos não ter modelos muito grandes. Se você tiver um AR ou MA finito, tanto o ACF quanto o PACF acabarão se deteriorando geometricamente (há uma função geométrica em que o valor absoluto de qualquer função ficará abaixo), o que tenderá a significar que uma boa aproximação de um AR ou um MA na outra forma pode ser razoavelmente curto.
Portanto, sob a condição estacionária de covariância e supondo que possamos identificar os componentes determinísticos e estocásticos, geralmente a AR e a MA podem ser apropriadas.
A metodologia de Box e Jenkins procura um modelo parcimonioso - um modelo AR, MA ou ARMA com poucos parâmetros. Normalmente, o ACF e o PACF são usados para tentar identificar um modelo, transformando em estacionariedade (talvez por diferenciação), identificando um modelo a partir da aparência do ACF e do PACF (às vezes as pessoas usam outras ferramentas), ajustando o modelo e examinando o modelo. estrutura dos resíduos (normalmente via ACF e PACF nos resíduos) até que a série residual pareça razoavelmente consistente com o ruído branco. Frequentemente, haverá vários modelos que podem fornecer uma aproximação razoável a uma série. (Na prática, outros critérios são frequentemente considerados.)
Existem alguns motivos para críticas a essa abordagem. Por exemplo, os valores p resultantes de um processo iterativo geralmente não levam em consideração a maneira como o modelo foi alcançado (observando os dados); esse problema pode ser pelo menos parcialmente evitado pela divisão de amostras, por exemplo. Um segundo exemplo de crítica é a dificuldade de realmente obter uma série estacionária - embora em muitos casos se possa transformar para obter uma série que pareça razoavelmente consistente com a estacionariedade, normalmente não será o que realmente é (problemas semelhantes são comuns problema com modelos estatísticos, embora às vezes possa ser mais um problema aqui).
[A relação entre um AR e o MA infinito correspondente é discutida em Hyndman e Athanasopoulos ' Forecasting: princípios e práticas , aqui ]
fonte
Posso fornecer o que considero uma resposta convincente para a primeira parte da pergunta ("de onde MA?"), Mas atualmente estou ponderando uma resposta igualmente convincente para a segunda parte da pergunta ("de onde AR?").
Considere uma série que consiste no preço de fechamento (ajustado por desdobramentos e dividendos) de uma ação em dias consecutivos. O preço de fechamento de cada dia é derivado de uma tendência (por exemplo, linear no tempo) mais os efeitos ponderados dos choques diários de dias anteriores. Presumivelmente, o efeito do choque no dia t-1 terá uma influência mais forte no preço no dia t do que o choque no dia t-2, etc. Portanto, logicamente, o preço de fechamento das ações no dia t refletirá a tendência valor no dia t mais uma constante (menor que 1) vezes a soma ponderada dos choques até o dia t-1 (ou seja, o termo de erro no dia t-1) (MA1), possivelmente mais uma constante (menor que 1) vezes a soma ponderada dos choques até o dia t-2 (ou seja, o termo de erro no dia t-2) (MA2), ..., mais o novo choque no dia t (ruído branco). Esse tipo de modelo parece apropriado para modelar séries como o mercado de ações, onde o termo de erro no dia t representa a soma ponderada dos choques anteriores e atuais e define um processo de MA. Estou trabalhando com uma justificativa igualmente convincente para um processo exclusivo de recuperação de crédito.
fonte
Este é o exemplo mais simples que eu poderia criar para ajudar a visualizar os processos de AR, MA e ARMA.
Observe que isso é apenas uma ajuda visual para uma introdução ao assunto e de forma alguma rigorosa o suficiente para explicar todos os casos possíveis.
Suponha o seguinte: Temos dois agentes em uma competição encarregados de executar um certo tipo de ação (pule horizontalmente para a direita).
Espera-se, em média, que o "Humano" cubra uma distância de "μ" com um desvio padrão de "𝛿" a cada salto, de acordo com sua capacidade física. No entanto, o ser humano é particularmente carente de força mental :) e seu desempenho também depende se o salto anterior ficou para trás / atingiu / superou suas expectativas.
A "Máquina" foi projetada exatamente com as mesmas especificações que o humano acima, com apenas uma diferença - a máquina não tem emoções e não é afetada por desempenhos anteriores.
Além disso, existem dois jogos que devem ser disputados pelos dois agentes, cada um envolvendo dois saltos:
O “Salto Final” pontuou com base na distância percorrida no salto final após um salto de aquecimento cujo resultado é ignorado na competição, mas disponível para o ser humano observar. O salto final começa onde o salto de aquecimento começa.
O “salto combinado” pontuou com base na distância combinada percorrida nos saltos inicial e final. O salto final começa onde o salto inicial cai.
O gráfico abaixo mostra qual modelo melhor descreveria cada um dos quatro cenários associados aos atores e jogos acima.
fonte
Então você tem uma série temporal univariada e deseja modelá-la / prever, certo? Você optou por usar um modelo do tipo ARIMA.
Os parâmetros do dependem do que é melhor para o seu conjunto de dados. Mas como você descobre? Uma abordagem recente é "Previsão automática de séries temporais", de Hyndman & Khandakar (2008) ( pdf ).
O algoritmo tenta diferentes versões de p, q, P e Q e escolhe aquela com o menor AIC, AICc ou BIC. É implementado na função auto.arima () do pacote R. de previsão . A escolha do critério de informação depende dos parâmetros que você passa para a função.
Para um modelo linear, a escolha de um modelo com o menor AIC pode ser equivalente à validação cruzada de exclusão única.
Você também deve se certificar de ter dados suficientes, pelo menos quatro anos.
Algumas verificações importantes:
Resposta explícita ao comentário do Firebug abaixo: Quando seus dados suportam.
fonte
"My question is, when would one of either of these two situations occur? "