Fórmula AIC em Introdução à Aprendizagem Estatística

9

Estou um pouco intrigado com a fórmula apresentada na "Introdução ao aprendizado estatístico" de Hastie. No capítulo 6, página 212 (sexta impressão, disponível aqui ), afirma-se que:

UMAEuC=RSSnσ^2+2dn

Para modelos lineares com ruído gaussiano, é o número de preditores e a estimativa da variação do erro. Contudo,dσ^

σ^2=RSS(n2)

O que é afirmado no capítulo 3, página 66.

O que implicaria:

AIC=(n2)n+2dn

O que não pode estar certo. Alguém pode apontar o que estou fazendo incorretamente?

Sue Doh Nimh
fonte
A menos que perca alguma coisa, não acho que o livro possa estar certo.
Glen_b -Reinstate Monica

Respostas:

3

Eu acho que você está confundindo a soma residual de dois quadrados que você possui. Você tem um RSS para estimar o na fórmula; este RSS é, em certo sentido, independente do número de parâmetros, . Esse deve ser estimado usando todas as suas covariáveis, fornecendo uma unidade de base de erro . Você deve chamar o RSS na fórmula do AIC : , o que significa que corresponde ao modelo com parâmetros ( pode haver muitos modelos com parâmetros ). Portanto, o RSS na fórmula é calculado para um modelo específico, enquanto o RSS parap σ 2RSSpiippσ^2pσ^2RSSpiippσ^2 é para o modelo completo.

Isto também é indicada na página anterior, onde σ 2 é introduzido para C p .σ^2Cp

Portanto, o RSS da fórmula na AIC não é independente de , é calculado para um determinado modelo. Apresentando σ 2 a tudo isso é apenas para ter uma unidade de linha de base para o erro, de modo que há uma "justa" comparação entre o número de parâmetros e a redução no erro. Você precisa comparar o número de parâmetros com algo escalonado com a magnitude do erro.pσ^2

Se você não dimensionasse o RSS pelo erro de linha de base, pode ser que o RSS esteja caindo muito mais do que o número de variáveis ​​introduzidas e, assim, você se tornará mais ganancioso ao adicionar mais variáveis. Se você dimensioná-lo para alguma unidade, a comparação com o número de parâmetros é independente da magnitude do erro da linha de base.

Essa não é a maneira geral de calcular o AIC, mas basicamente se resume a algo semelhante a isso nos casos em que é possível derivar versões mais simples da fórmula.

Gumeo
fonte
Você seria capaz de fornecer alguma referência em que eu possa ler mais sobre o raciocínio por trás da estimativa da variação de erro nesses modelos com um conjunto total de preditores disponíveis em oposição ao RSS de algum subconjunto? Vejo como sua resposta responde a essa pergunta, mas não sei por que é legítimo fazê-lo em primeiro lugar.
precisa
@SueDohNimh Esses slides fornecem um bom começo. Observe que a melhor estimativa para é usar o modelo completo, introduzido para C p . O AIC que você possui é aquele em que σ 2 é conhecido, mas você apenas usa a melhor estimativa possível. Estimar σ 2 pode ser muito difícil. Essa discussão também é relevante. Isso também é relevante . σ2Cpσ2σ2
Gumeo
2
Você também deve ler o artigo original de Akaike, acho que é a melhor fonte, tem mais de 15 mil citações a partir de agora. Aqui está , você poderá encontrá-lo em algum lugar on-line ou acessá-lo em uma universidade.
Gumeo 14/11/2015
5

Infelizmente, essa será uma resposta bastante insatisfatória ...

Antes de tudo, geralmente para o cálculo da AIC, você usará a estimativa de Máxima Verossimilhança de que seria enviesada. Então isso reduziria a σ 2 = R S Sσ2 finalmente, o cálculo que você faria reduziria para1+2dσ2=RSSn1+2dnCnlog(RSSN)+2d

AIC(p)=2l(y;X,β^ML,σ^ML2)+2p=Nlog(σ^ML2)/2N/2+2p(7.5.10)

que, curiosamente, também não pode ser verdade. Como Burnham e Anderson (1998), capítulo 2.2, escrevem: " No caso especial de estimativa de mínimos quadrados (LS) com erros normalmente distribuídos, e além de uma constante aditiva arbitrária, a AIC pode ser expressa como uma função simples da soma residual dos quadrados. . "; A B&A sugere a mesma variante AIC usada pela J&W. O que bagunça você é essa constante específica (e o fato de você não estar usando a estimativa de ML para os resíduos.) Observando o Reconhecimento de Padrões e o Aprendizado de Máquina de M. Bishop (2006) , encontro uma definição ainda mais contraditória como:

AIC=l(D|wML)M(1.73)

o que é engraçado, porque não apenas omite o multiplicador do papel original, mas também avança para rotular os sinais para que ele possa usar a seleção baseada na AIC como um problema de maximização ...

2log(L)+2p

usεr11852
fonte
Ah! Bem, isso de fato é um pouco anticlimático, mas obrigado. No entanto, por implicação, o AIC de Hastie está aumentando linearmente em d e não é uma função da soma dos resíduos quadrados! As outras definições que você forneceu variam pelo menos com os erros do conjunto de treinamento, enquanto a AIC do Hastie implicaria que o modelo ideal seria apenas um com 0 preditores. Existe alguma maneira de casar com isso?
Sue Doh Nimh
1
logCp1NCp
Cheguei às mesmas conclusões que você, lendo o famoso livro Hastie / Tibshirani "Os elementos do aprendizado estatístico" (p.230-233), em que as definições de AIC / BIC são muito semelhantes às definições apresentadas em "Introdução à estatística aprendendo em R ". Então, Hastie é um acadêmico incrível, mas ele não é tão bom em definir AIC / BIC =).
Rodvi