Na Wikipedia, existe uma definição do Critério de Informação de Akaike (AIC) como , onde é o número de parâmetros e é a probabilidade de log do modelo.
No entanto, os nossos notas Econometria na universidade um estado bem respeitado que . Aqui σ 2é a variância estimada para os erros em um modelo ARMA eé o número de observações no conjunto de dados de séries temporais.
A última definição é equivalente à primeira, mas simplesmente ajustada para os modelos ARMA? Ou existe algum tipo de conflito entre as duas definições?
Respostas:
A fórmula que você cita em suas anotações não é exatamente a AIC.
AIC é .−2logL+2k
Aqui darei um esboço de uma derivação aproximada que deixa claro o que está acontecendo.
Se você possui um modelo com erros normais independentes com variação constante,
que pode ser estimado com a máxima probabilidade de
(supondo que a estimativa de seja a estimativa de ML)σ2
Então (-se ao deslocamento por uma constante)−2logL+2k=nlogσ^2+2k
Agora no modelo ARMA, se é realmente grande em comparação com p e q , então a probabilidade pode ser aproximada por um tal quadro Gaussian (por exemplo, você pode escrever o ARMA aproximadamente como um AR mais tempo e condição em termos suficiente para escrever que AR como modelo de regressão), então com T no lugar de n :T p q T n
conseqüentemente
Agora, se você está simplesmente comparando AICs, essa divisão por não importa, pois não altera a ordem dos valores da AIC.T
No entanto, se você estiver usando o AIC para algum outro objetivo que dependa do valor real das diferenças no AIC (como fazer inferência multimodal conforme descrito por Burnham e Anderson), isso importa.
Numerosos textos econométricos parecem usar esse formulário AIC / T. Estranhamente, alguns livros parecem referenciar Hurvich e Tsai 1989 ou Findley 1985 para essa forma, mas Hurvich & Tsai e Findley parecem estar discutindo a forma original (embora eu tenha apenas uma indicação indireta do que Findley faz agora, talvez exista algo em Findley).
Tal escala pode ser feito por uma variedade de razões - por exemplo, séries temporais, especialmente séries temporais de alta frequência, pode ser muito longo e AICs comuns podem ter uma tendência a se tornar inviável, especialmente se é muito pequena. (Existem outros motivos possíveis, mas como eu realmente não sei o motivo disso, não começarei a listar todos os motivos possíveis.)σ2
Você pode gostar de ver a lista de fatos e falácias da AIC de Rob Hyndman - particularmente os itens 3 a 7. Alguns desses pontos podem levar você a ter pelo menos um pouco de cautela ao confiar demais na aproximação da probabilidade gaussiana, mas talvez haja uma justificativa melhor do que eu ofereço aqui.
Não tenho certeza de que haja uma boa razão para usar essa aproximação à probabilidade de log em vez da AIC real, pois muitos pacotes de séries temporais hoje em dia tendem a calcular (/ maximizar) a probabilidade de log real para os modelos ARMA. Parece haver poucas razões para não usá-lo.
fonte
Eu acredito que isso se baseia na suposição de erros normais. Em econometria, você opera usando assintóticos, especialmente nas aplicações de séries temporais usando AIC. Como conseqüência, a suposição normal deve ser mantida assintoticamente para justificar esse esquema de seleção de modelo (assintótico).
In summary, this means we get for the normal likelihood thatAIC=2k+Tln(σ2)+1 . Needless to say, the minimization is not affected by ignoring the constant 1 . The term is now simply divided by T , since it does not change the minimization problem to scale all additive components by T . This lands you at the second result, because AIC and AIC/T are identical for the purpose of minimization.
fonte