Seleção de modelo Box-Jenkins

14

O procedimento de seleção do modelo Box-Jenkins na análise de séries temporais começa examinando as funções de autocorrelação e autocorrelação parcial da série. Esses gráficos podem sugerir e q apropriados em um modelo ARMA ( p , q ) . O procedimento continua solicitando ao usuário que aplique os critérios AIC / BIC para selecionar o modelo mais parcimonioso entre aqueles que produzem um modelo com um termo de erro de ruído branco.pq(p,q)

Fiquei imaginando como essas etapas de inspeção visual e seleção de modelo com base em critérios afetam os erros padrão estimados do modelo final. Eu sei que muitos procedimentos de pesquisa em um domínio transversal podem influenciar erros padrão para baixo, por exemplo.

Na primeira etapa, como a seleção do número apropriado de defasagens observando os dados (ACF / PACF) afeta os erros padrão dos modelos de séries temporais?

Eu acho que a seleção do modelo com base nos escores da AIC / BIC teria um impacto análogo ao dos métodos transversais. Na verdade, também não sei muito sobre essa área, portanto quaisquer comentários também serão apreciados.

Por fim, se você anotasse o critério preciso usado para cada etapa, poderia iniciar todo o processo para estimar os erros padrão e eliminar essas preocupações?

Charlie
fonte
o viés nos erros padrão (dos parâmetros?) é tão importante nos modelos ARMA teóricos? Os modelos ARMA ASFAIK são usados ​​principalmente para previsões de curto prazo. Os problemas com a interpretação dos parâmetros e suas propriedades são menos (menos?) Importantes. Obviamente, se você não está entendendo as características de um processo de inovação (termo do erro), planeje produzir intervalos de previsão relevantes.
Dmitrij Celov
@ Dmitrij, existem duas razões principais pelas quais estou preocupado com o viés nos erros padrão dos coeficientes. O primeiro, como você aludiu, é a criação de intervalos de previsão. O segundo é o teste de rupturas estruturais no modelo, uma pergunta comum que um economista estaria interessado em responder. Os erros padrão gerados usando um procedimento de seleção devem ser muito pequenos, fornecendo intervalos de previsão muito estreitos e estatísticas de teste muito grandes.
6117 Charlie
mas em modelos teóricos a (o que significa que não há teoria, nem estrutura), quebras estruturais são pouco relacionadas aos parâmetros que seriam alguns testes gerais, em relação ao comportamento dos resíduos do modelo. Bem, neste caso, estimativas imparciais de parâmetros de modelos são menos importantes, o ARMA simplesmente não possui interpretação de modelos estruturais. Assim, os modelos parcimoniosos são, de fato, melhores preditores, pois equilibram bem as propriedades geralmente ruins de pequenos estimadores de amostra e a precisão da previsão.
Dmitrij Celov
Observe que, mesmo que você conheça o processo de geração de dados com muitos parâmetros, em pequenas amostras o modelo mais simples provavelmente fará melhores previsões, mas no contexto estrutural os parâmetros desse modelo serão muito tendenciosos (viés variável omitido)!
Dmitrij Celov 06/07

Respostas:

5

Qualquer procedimento de seleção de modelo afetará os erros padrão e isso quase nunca é contabilizado. Por exemplo, os intervalos de previsão são computados condicionalmente no modelo estimado e a estimativa de parâmetros e a seleção do modelo geralmente são ignoradas.

Deve ser possível inicializar todo o procedimento para estimar o efeito do processo de seleção do modelo. Mas lembre-se de que o bootstrap de séries temporais é mais complicado que o normal, porque você precisa preservar a correlação serial. O bootstrap de bloco é uma abordagem possível, embora perca alguma correlação serial devido à estrutura do bloco.

Rob Hyndman
fonte
6

Na minha opinião, selecionar o número apropriado de defasagens não é diferente de selecionar o número de séries de entrada em um procedimento de regressão progressiva. A importância incremental de defasagens ou de uma série de entradas específica é a base para a especificação do modelo experimental.

Como você afirmou que o acf / pacf é a única base para a seleção do modelo Box-Jenkins, deixe-me contar o que uma experiência me ensinou. Se uma série exibe um ACF que não decai, a abordagem de Box-Jenkins (por volta de 1965) sugere diferenciar os dados. Mas se uma série tem uma mudança de nível, como os dados do Nilo , a não estacionariedade "visualmente aparente" é um sintoma da estrutura necessária, mas a diferenciação não é o remédio. Esse conjunto de dados do Nilo pode ser modelado sem diferenciar simplesmente identificando a necessidade de uma mudança de nível primeiro. De maneira semelhante, somos ensinados usando conceitos de 1960 que, se o ACF exibir uma estrutura sazonal ( isto é,valores significativos em defasagens de s, 2s, 3s, ...) então devemos incorporar um componente ARIMA sazonal. Para fins de discussão, considere uma série estacionária em torno de uma média e em intervalos fixos, digamos que todo mês de junho exista um "alto valor". Esta série é tratada adequadamente incorporando uma série fictícia "antiquada" de 0 e 1 (em junho) para tratar a estrutura sazonal. Um modelo ARIMA sazonal usaria incorretamente a memória em vez de uma variável X não especificada, mas que espera ser encontrada. Esses dois conceitos de identificação / incorporação de estrutura determinística não especificada são aplicações diretas do trabalho de I. Chang, William Bell, George Tiao, R. Tsay , Chen et al (a partir de 1978) sob o conceito geral de Detecção de Intervenção.

Até hoje, alguns analistas estão executando estratégias de maximização de memória sem pensar, chamando-os de ARIMA automático, sem reconhecer que a "modelagem de memória sem noção" pressupõe que a estrutura determinística, como pulsos, mudanças de nível, pulsos sazonais e tendências da hora local, não existem ou, pior ainda, não existe. papel na identificação do modelo. Isso é como colocar a cabeça na areia, IMHO.

IrishStat
fonte
Obrigado pelo excelente conselho sobre a seleção de modelos, mas fiquei interessado em como esse processo afeta nossa inferência posteriormente.
307 Charlie
Charlie: Não acredito que o diagnóstico inicial de dados, como a revisão de autocorrelações ou correlações cruzadas ou qualquer outro procedimento de identificação de modelo, como apresentações gráficas, tenha algum efeito sobre a significância estatística de quaisquer parâmetros estimados. Essa é a minha opinião e "aqui estou, não posso fazer outra". Obrigado pelo elogio e se eu puder ajudar o jovem Charlie de alguma forma, entre em contato comigo, pois eu amo ser listado como um recurso de apoio (não remunerado!) Nas dissertações de doutorado.
IrishStat