Definições diferentes da AIC

12

Na Wikipedia, existe uma definição do Critério de Informação de Akaike (AIC) como AIC=2k2logL , onde k é o número de parâmetros e logL é a probabilidade de log do modelo.

No entanto, os nossos notas Econometria na universidade um estado bem respeitado que AIC=log(σ^2)+2kT . Aqui σ 2é a variância estimada para os erros em um modelo ARMA eé o número de observações no conjunto de dados de séries temporais.σ^2T

A última definição é equivalente à primeira, mas simplesmente ajustada para os modelos ARMA? Ou existe algum tipo de conflito entre as duas definições?

pir
fonte
3
Para o registro: critério singular, critério plural. (Editado de acordo.) #
214 Nick Cox

Respostas:

15

A fórmula que você cita em suas anotações não é exatamente a AIC.

AIC é .2logL+2k

Aqui darei um esboço de uma derivação aproximada que deixa claro o que está acontecendo.

Se você possui um modelo com erros normais independentes com variação constante,

Lσne12σ2εi2

que pode ser estimado com a máxima probabilidade de

(σ^2)n/2e12nσ^2/σ^2(σ^2)n/2e12n(σ^2)n/2

(supondo que a estimativa de seja a estimativa de ML)σ2

Então (-se ao deslocamento por uma constante)2logL+2k=nlogσ^2+2k

Agora no modelo ARMA, se é realmente grande em comparação com p e q , então a probabilidade pode ser aproximada por um tal quadro Gaussian (por exemplo, você pode escrever o ARMA aproximadamente como um AR mais tempo e condição em termos suficiente para escrever que AR como modelo de regressão), então com T no lugar de n :TpqTn

AICTlogσ^2+2k

conseqüentemente

AIC/Tlogσ^2+2k/T

Agora, se você está simplesmente comparando AICs, essa divisão por não importa, pois não altera a ordem dos valores da AIC.T

No entanto, se você estiver usando o AIC para algum outro objetivo que dependa do valor real das diferenças no AIC (como fazer inferência multimodal conforme descrito por Burnham e Anderson), isso importa.

Numerosos textos econométricos parecem usar esse formulário AIC / T. Estranhamente, alguns livros parecem referenciar Hurvich e Tsai 1989 ou Findley 1985 para essa forma, mas Hurvich & Tsai e Findley parecem estar discutindo a forma original (embora eu tenha apenas uma indicação indireta do que Findley faz agora, talvez exista algo em Findley).

Tal escala pode ser feito por uma variedade de razões - por exemplo, séries temporais, especialmente séries temporais de alta frequência, pode ser muito longo e AICs comuns podem ter uma tendência a se tornar inviável, especialmente se é muito pequena. (Existem outros motivos possíveis, mas como eu realmente não sei o motivo disso, não começarei a listar todos os motivos possíveis.)σ2

Você pode gostar de ver a lista de fatos e falácias da AIC de Rob Hyndman - particularmente os itens 3 a 7. Alguns desses pontos podem levar você a ter pelo menos um pouco de cautela ao confiar demais na aproximação da probabilidade gaussiana, mas talvez haja uma justificativa melhor do que eu ofereço aqui.

Não tenho certeza de que haja uma boa razão para usar essa aproximação à probabilidade de log em vez da AIC real, pois muitos pacotes de séries temporais hoje em dia tendem a calcular (/ maximizar) a probabilidade de log real para os modelos ARMA. Parece haver poucas razões para não usá-lo.

Glen_b -Reinstate Monica
fonte
1
Mais cedo ou mais tarde, toda discussão sobre qualquer * IC se transforma em "Este é o critério que você deve usar, exceto que muitas vezes fornece a resposta errada em tais e tais circunstâncias". Ser irônico, não criticar uma resposta tipicamente útil. É como a vida real, onde algumas máximas genéricas, como "amar a todos", geralmente são substituídas temporariamente por outros conselhos, se alguém está tentando bater em você ou enganá-lo.
Nick Cox
1
@ Nick Não estou incomodado com os textos que usam AIC / vez de AIC, mas o que me preocupa é que muitos dos livros de econometria que eu olhei apenas o chamam de "AIC" sem nenhum comentário . Para mim, isso é irresponsável. Quem foi o primeiro a fazê-lo, mas não o disse, foi copiado repetidamente. n
Glen_b -Reinstala Monica
2

Eu acredito que isso se baseia na suposição de erros normais. Em econometria, você opera usando assintóticos, especialmente nas aplicações de séries temporais usando AIC. Como conseqüência, a suposição normal deve ser mantida assintoticamente para justificar esse esquema de seleção de modelo (assintótico).

ln(L)=(T/2)ln(2π)(T/2)ln(σ2)(1/2σ2)(xiμ)E(X)=μVar(X)=σ2x1,...,xT

LTln(σ2)(1/σ2)(Tσ^2)σ^2=T1(xix¯)σ2(1/σ2)(Tσ^2)=(1/σ^2)(Tσ^2) = T.

In summary, this means we get for the normal likelihood that AIC=2k+Tln(σ2)+1. Needless to say, the minimization is not affected by ignoring the constant 1. The term is now simply divided by T, since it does not change the minimization problem to scale all additive components by T. This lands you at the second result, because AIC and AIC/T are identical for the purpose of minimization.

Jeremias K
fonte