Meu entendimento geral é que a AIC lida com o compromisso entre a qualidade do ajuste do modelo e a complexidade do modelo.
= número de parâmetros no modelo
= probabilidade
O critério de informação bayesiano BIC está intimamente relacionado com o AIC. O AIC penaliza o número de parâmetros com menos força do que o BIC. Eu posso ver que esses dois são usados em todos os lugares historicamente. Mas a validação cruzada generalizada (GCV) é nova para mim. Como o GCV pode se relacionar com o BIC ou o AIC? Como esses critérios, juntos ou separados, são usados na seleção do termo de penalidade na regressão em painel como a crista?
Edit: Aqui está um exemplo para pensar e discutir:
require(lasso2)
data(Prostate)
require(rms)
ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45,
method="qr", data=Prostate,se.fit = TRUE, x=TRUE, y=TRUE)
p <- pentrace(ridgefits, seq(0,1,by=.01))
effective.df(ridgefits,p)
out <- p$results.all
par(mfrow=c(3,2))
plot(out$df, out$aic, col = "blue", type = "l", ylab = "AIC", xlab = "df" )
plot(out$df, out$bic, col = "green4", type = "l", ylab = "BIC", xlab = "df" )
plot(out$penalty, out$df, type = "l", col = "red",
xlab = expression(paste(lambda)), ylab = "df" )
plot(out$penalty, out$aic, col = "blue", type = "l",
ylab = "AIC", xlab = expression(paste(lambda)) )
plot(out$penalty, out$bic, col = "green4", type = "l", ylab = "BIC",
xlab= expression(paste(lambda))
require(glmnet)
y <- matrix(Prostate$lpsa, ncol = 1)
x <- as.matrix (Prostate[,- length(Prostate)])
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
plot(cv$lambda, cv$cvm, col = "red", type = "l",
ylab = "CVM", xlab= expression(paste(lambda))
cross-validation
lasso
aic
ridge-regression
bic
Ram Sharma
fonte
fonte
rms
pacote Reffective.df
e meu livro Regression Modeling Strategies. A idéia principal, de Robert Gray, é que você considere a matriz de covariância sem penalização versus a matriz de covariância com penalização. A soma da diagonal de um tipo de relação entre estes dois dá-lhe a df eficazglmnet
vários modelos (cada um com um parâmetro lambda diferente) e calcular o AIC para cada modelo e, em seguida, escolher o lambda correspondente ao modelo com o AIC mais baixo? Essa é basicamente outra maneira de escolher o parâmetro lambda, além de usar a Validação Cruzada. Estou certo?rms
pacote em que algumas das funções de ajuste quando usadas comeffective.df
o número efetivo de parâmetros para que você possa obter uma AIC eficaz. Isso aproximará o que você obtém da validação cruzada com o CV. Veja istoMeus próprios pensamentos sobre isso não são muito detalhados, mas aqui está uma coleção de pontos que sei que podem ajudar.
A interpretação bayesiana da AIC é que é uma aproximação corrigida pelo viés da densidade preditiva ponto a ponto esperada do log, ou seja, o erro de previsão fora da amostra. Essa interpretação é bem apresentada em Gelman, Hwang e Vehtari (2013) e também discutida brevemente no blog de Gelman . A validação cruzada é uma aproximação diferente para a mesma coisa.
Enquanto isso, o BIC é uma aproximação ao " fator Bayes " sob um determinado prioritário (explicado em Raftery, 1999 ). Este é quase o análogo bayesiano de uma razão de verossimilhança.
O que é interessante no AIC e no BIC é que a regressão penalizada também tem uma interpretação bayesiana, por exemplo, LASSO é a estimativa MAP da regressão bayesiana com anteriores independentes de Laplace nos coeficientes. Um pouco mais de informação nesta pergunta anterior e muito mais em Kyung, Gill, Ghosh e Casella (2010) .
Isso sugere que você pode obter alguma quilometragem, ou pelo menos um projeto de pesquisa mais coerente, pensando e modelando em termos bayesianos. Eu sei que isso é um pouco incomum em muitas aplicações, como aprendizado de máquina de alta dimensão, e também um pouco afastado das (na minha opinião) interpretações geométricas e interpretáveis de função de perda mais interpretáveis da regularização. No mínimo, confio muito na interpretação bayesiana para decidir entre a AIC e a BIC e explicar a diferença para leigos, colegas de trabalho / chefes não orientados estatisticamente, etc.
fonte