Por critério de informação (não ajustado

9

Nos modelos de séries temporais, como ARMA-GARCH, para selecionar o atraso ou a ordem apropriada do modelo, são utilizados diferentes critérios de informação, como AIC, BIC, SIC, etc.

A minha pergunta é muito simples, porque donot usamos ajustado R2 para escolher o modelo apropriado? Podemos selecionar modelo que levam à maior valor de ajustado R2 . Como o ajustado R2e o critério de informação penalizam o número adicional de regressores no modelo, onde o anterior penaliza R2 e posteriormente penaliza o valor da probabilidade.

Neeraj
fonte
Posso estar faltando alguma coisa nas respostas (abaixo), mas os quadrados R e os quadrados R ajustados são apropriados para a classe relativamente limitada de modelos estimados de OLS, enquanto os AICs, BICs etc. são adequados para a classe mais ampla de lineares generalizados. modelos estimados, talvez, com ML ou uma variante.
Mike Hunter

Respostas:

12

Eu diria que, pelo menos, quando se discute modelos lineares (como modelos AR), ajustado e AIC que não são diferentes.R2

Considere a questão de saber se deve ser incluído em y = X 1 ( n × K 1 ) β 1 + X 2 ( n × K 2 ) β 2 + ϵ Isso equivale a comparar os modelos M 1X2

y=X1(n×K1)β1+X2(n×K2)β2+ϵ
ondeE(u|X1,X2)=0. Dizemos queM2é omodelo verdadeiroseβ20. Observe queM1M2. Os modelos são assimaninhados. A selecção do modelo procedimento H
M1:y=X1β1+uM2:y=X1β1+X2β2+u,
E(u|X1,X2)=0M2β20M1M2M^ é uma regra dependente de dados que seleciona o mais plausível de vários modelos.

M^

limnP(M^=M1|M1)=1limnP(M^=M2|M2)=1

Considere ajustado . Ou seja, escolha se . Como diminui monotonicamente em , este procedimento é equivalente a minimizar . Por sua vez, isso é equivalente a minimizar . Para suficientemente grande , o último pode ser escrito como queR2M1R¯12>R¯22R¯2s2s2log(s2)n

log(s2)=log(σ^2nnK)=log(σ^2)+log(1+KnK)log(σ^2)+KnKlog(σ^2)+Kn,
σ^2é o estimador de ML da variação de erro. A seleção de modelos com base em é, portanto, assintoticamente equivalente à escolha do modelo com o menor . Este procedimento é inconsistente.R¯2log(σ^2)+K/n

Proposição :

limnP(R¯12>R¯22|M1)<1

Prova : onde a penúltima linha segue porque a estatística é a estatística LR no caso de regressão linear que segue um assintótico distribuição nula. QED

P(R¯12>R¯22|M1)P(log(s12)<log(s22)|M1)=P(nlog(s12)<nlog(s22)|M1)P(nlog(σ^12)+K1<nlog(σ^22)+K1+K2|M1)=P(n[log(σ^12)log(σ^22)]<K2|M1)P(χK22<K2)<1,
χK22

Agora considere o critério de Akaike, Assim, a AIC também negocia a redução do SSR implícita por regressores adicionais contra o "termo da penalidade , "que aponta na direção oposta. Portanto, escolha se , caso contrário, selecione .

AIC=log(σ^2)+2Kn
M1AIC1<AIC2M2

Pode-se observar que a também é inconsistente, continuando a prova acima na linha três com . O ajustado e o escolhem, assim, o modelo "grande" com probabilidade positiva, mesmo que seja o modelo verdadeiro.AICP(nlog(σ^12)+2K1<nlog(σ^22)+2(K1+K2)|M1)R2AICM2M1

Como a penalidade pela complexidade no AIC é um pouco maior do que para o ajustado , pode ser menos propenso a selecionar demais. E tem outras propriedades interessantes (minimizando a divergência de KL com o modelo verdadeiro, se isso não estiver no conjunto de modelos considerado) que não são abordadas no meu post.R2

Christoph Hanck
fonte
11
Ótima resposta: não muito pesada, mas ainda exata! Se estivesse lá ontem, eu não teria postado o meu.
Richard Hardy
E o caso do ARMA-GARCH? Como faria ao selecionar um dos termos MA e GARCH? Radj2
Zachary Blumenfeld
Eu não ousaria dizer. Como você explica, ainda não está claro o que R2 significa para o ajuste de um modelo desse tipo.
Christoph Hanck
5

A penalidade em não produz as boas propriedades em termos de seleção de modelo, conforme posicionado pelo AIC ou BIC. A penalidade em é suficiente para tornar um estimador imparcial da população quando nenhum dos regressores realmente pertence ao modelo (conforme as postagens de blog de Dave Giles "In What Sense é o R-quadrado "ajustado" não tendencioso? " e " Mais informações sobre as propriedades do coeficiente de determinação "ajustado" ); no entanto, não é um seletor de modelo ideal. R 2 a d j R 2 a d j R 2 R 2 a d jRadj2Radj2Radj2R2Radj2

(Pode haver uma prova por contradição: se AIC é ideal em um sentido e BIC é ideal em outro, e não é equivalente a nenhum deles, então não é ótimo em nenhum desses dois sentidos.) R 2 a d jRadj2Radj2

Richard Hardy
fonte
Quantos parâmetros GARCH devo adicionar antes que o aumente? :) .... Eu acredito que um argumento semelhante poderia ser feito para a suposição de erros correlatos (como em um modelo MA). Um modelo GLS não reduz a soma dos resíduos quadrados sobre os mínimos quadrados comuns. Em MA e GARCH, parâmetros (variáveis ​​não explicativas, para as quais está ajustado) são adicionados ao modelo. Os parâmetros MA e GARCH não são adicionados para reduzir o , mas sim para aumentar a probabilidade e / ou diminuem uma soma ponderada de resíduos quadrados para refletir a falta de termos de erro de IDI. R 2 a d j S S RR2R2adjSSR
Zachary Blumenfeld
Isso realmente aborda a postagem original ou a minha resposta? De qualquer forma, concordo com seus pontos.
Richard Hardy
O que eu estava tentando ressaltar é que não pode realmente ser usado para selecionar componentes GARCH (e possivelmente componentes MA também), pois é baseado na fração de sobre que são estimadores tendenciosos de variação quando os termos do erro não são iid. (este é apenas um caso específico do viés de que você está falando). No caso do ARMA-GARCH, você nunca selecionaria um modelo com componentes GARCH, mesmo que houvesse volatilidade estocástica nos dados, porque não aumenta . Basicamente, estou de acordo com você, tentando dar exemplos específicos. S S T - S S R S S T R 2Radj2SSTSSRSSTR2
Zachary Blumenfeld