Quero calcular o AICc de um modelo de regressão de cume. O problema é o número de parâmetros. Para regressão linear, a maioria das pessoas sugere que o número de parâmetros é igual ao número de coeficientes estimados mais sigma (a variação do erro).
Quando se trata de regressão de crista, li que o traço da matriz hat - o grau de liberdade (df) - é simplesmente usado como o número de parâmetros na fórmula AIC (por exemplo, aqui ou aqui ).
Isso está correto? Também posso simplesmente usar o df para calcular o AICc? Posso simplesmente adicionar +1 ao df para explicar a variação do erro?
Respostas:
AIC e regressão de crista podem ser compatíveis quando certas suposições são feitas. No entanto, não existe um método único de escolher um encolhimento para a regressão da crista, portanto, não existe um método geral de aplicar o AIC a ele. A regressão de Ridge é um subconjunto da regularização de Tikhonov . Existem muitos critérios que podem ser aplicados à seleção de fatores de suavização para a regularização de Tikhonov, por exemplo, veja isso . Para usar a AIC nesse contexto, existe um artigo que faz suposições bastante específicas sobre como executar essa regularização, seleção de parâmetros de regularização baseada na complexidade da informação para solução de problemas inversos mal condicionados . Especificamente, isso pressupõe
"Em uma estrutura estatística, ... escolhendo o valor do parâmetro de regularização α e usando o método da máxima verossimilização penalizada (MPL) ... Se considerarmos o ruído gaussiano não correlacionado com variaçãoσ2 e usar a penalidade p(x)= uma norma complicada, veja o link acima , a solução MPL é a mesma que a solução regularizada de Tikhonov (1963). "
A questão então se torna: essas suposições devem ser feitas? A questão dos graus de liberdade necessários é secundária à questão de saber se a AIC e a regressão de crista são ou não usadas em um contexto consistente. Eu sugeriria a leitura do link para obter detalhes. Não estou evitando a pergunta, é apenas que se pode usar muitas coisas como alvos de crista, por exemplo, se pode usar o fator de suavização que otimiza a própria AIC . Portanto, uma boa pergunta merece outra: "Por que se preocupar com a AIC em um contexto de cordilheira?" Em alguns contextos de regressão, é difícil ver como a AIC pode ser relevante. Por exemplo, a regressão de crista foi aplicada para minimizar a propagação de erro relativo deb , ou seja, min [SD(b)b] da distribuição gama (GD) dada por
conforme este trabalho . Em particular, esta dificuldade surge porque, em que o papel, isto é, com efeito, a uma rea L nder a[0,∞) tempo C urve (AUC) que é optimizada, e não a probabilidade máxima (ML) de qualidade de ajuste entre medido [t1,tn] amostras de tempo. Para ser claro, isso é feito porque a AUC é uma integral incorreta e, caso contrário, por exemplo, usando ML, o ajuste da distribuição gama careceria de robustez. Assim, para essa aplicação específica, a probabilidade máxima, portanto, a AIC, é realmente irrelevante. (Diz-se que o AIC é usado para previsão e o BIC para ajuste de qualidade. No entanto, a previsão e o ajuste de qualidade estão ambos apenas indiretamente relacionados a uma medida robusta da AUC.)
"One can show thatdfridge=∑(λi/(λi+λ ),
where {λi } are the eigenvalues of XTX ." Interestingly, that same reference defines df as the trace of the hat matrix, see def.
fonte