Estou um pouco intrigado com a fórmula apresentada na "Introdução ao aprendizado estatístico" de Hastie. No capítulo 6, página 212 (sexta impressão, disponível aqui ), afirma-se que:
Para modelos lineares com ruído gaussiano, é o número de preditores e a estimativa da variação do erro. Contudo,
O que é afirmado no capítulo 3, página 66.
O que implicaria:
O que não pode estar certo. Alguém pode apontar o que estou fazendo incorretamente?
regression
machine-learning
aic
Sue Doh Nimh
fonte
fonte
Respostas:
Eu acho que você está confundindo a soma residual de dois quadrados que você possui. Você tem um RSS para estimar o na fórmula; este RSS é, em certo sentido, independente do número de parâmetros, . Esse deve ser estimado usando todas as suas covariáveis, fornecendo uma unidade de base de erro . Você deve chamar o RSS na fórmula do AIC : , o que significa que corresponde ao modelo com parâmetros ( pode haver muitos modelos com parâmetros ). Portanto, o RSS na fórmula é calculado para um modelo específico, enquanto o RSS parap σ 2RSSpiippσ^2 p σ^2 RSSpi i p p σ^2 é para o modelo completo.
Isto também é indicada na página anterior, onde σ 2 é introduzido para C p .σ^2 Cp
Portanto, o RSS da fórmula na AIC não é independente de , é calculado para um determinado modelo. Apresentando σ 2 a tudo isso é apenas para ter uma unidade de linha de base para o erro, de modo que há uma "justa" comparação entre o número de parâmetros e a redução no erro. Você precisa comparar o número de parâmetros com algo escalonado com a magnitude do erro.p σ^2
Se você não dimensionasse o RSS pelo erro de linha de base, pode ser que o RSS esteja caindo muito mais do que o número de variáveis introduzidas e, assim, você se tornará mais ganancioso ao adicionar mais variáveis. Se você dimensioná-lo para alguma unidade, a comparação com o número de parâmetros é independente da magnitude do erro da linha de base.
Essa não é a maneira geral de calcular o AIC, mas basicamente se resume a algo semelhante a isso nos casos em que é possível derivar versões mais simples da fórmula.
fonte
Infelizmente, essa será uma resposta bastante insatisfatória ...
Antes de tudo, geralmente para o cálculo da AIC, você usará a estimativa de Máxima Verossimilhança de que seria enviesada. Então isso reduziria a σ 2 = R S Sσ2 finalmente, o cálculo que você faria reduziria para1+2dσ2=RSSn 1+2dn C nlog(RSSN)+2d
que, curiosamente, também não pode ser verdade. Como Burnham e Anderson (1998), capítulo 2.2, escrevem: " No caso especial de estimativa de mínimos quadrados (LS) com erros normalmente distribuídos, e além de uma constante aditiva arbitrária, a AIC pode ser expressa como uma função simples da soma residual dos quadrados. . "; A B&A sugere a mesma variante AIC usada pela J&W. O que bagunça você é essa constante específica (e o fato de você não estar usando a estimativa de ML para os resíduos.) Observando o Reconhecimento de Padrões e o Aprendizado de Máquina de M. Bishop (2006) , encontro uma definição ainda mais contraditória como:
o que é engraçado, porque não apenas omite o multiplicador do papel original, mas também avança para rotular os sinais para que ele possa usar a seleção baseada na AIC como um problema de maximização ...
fonte