AIC de regressão de crista: graus de liberdade vs. número de parâmetros

13

Quero calcular o AICc de um modelo de regressão de cume. O problema é o número de parâmetros. Para regressão linear, a maioria das pessoas sugere que o número de parâmetros é igual ao número de coeficientes estimados mais sigma (a variação do erro).

Quando se trata de regressão de crista, li que o traço da matriz hat - o grau de liberdade (df) - é simplesmente usado como o número de parâmetros na fórmula AIC (por exemplo, aqui ou aqui ).

Isso está correto? Também posso simplesmente usar o df para calcular o AICc? Posso simplesmente adicionar +1 ao df para explicar a variação do erro?

Julian
fonte
2
Eu gosto dessa pergunta porque as entradas gerais para o AICc são RSS, ke ne - mas tende a não selecionar modelos robustos sobre modelos de menor erro para o mesmo número de parâmetros. Se você usar a mesma abordagem de ajuste para os modelos candidatos, e estiver ajustando nos mesmos dados, a seleção de modelo é seleção de modelo. Gosto da questão de como você mede o melhor ajuste teórico da informação com o mesmo modelo e dados, mas usando diferentes tipos de ajuste, como erro mínimo ao quadrado e perda de Huber.
EngrStudent - Restabelece Monica
3
@EngrStudent, apenas uma pequena observação: o RSS é um caso especial de probabilidade normal. Quando uma distribuição diferente (não normal) é assumida, o AIC não contém RSS, mas a probabilidade de log do modelo. Além disso, tipos de ajuste : você quer dizer funções de perda pelas quais o modelo é avaliado ou função de perda usada para ajustá -lo, ou ainda outra coisa?
Richard Hardy
1
@RichardHardy - Você está certo sobre a probabilidade normal! Na prática, o teorema do limite central é superutilizado. Nesse caso, significava o mesmo quando eu disse "função de ajuste" e você diz "função de perda". Penso em mínimos quadrados em termos de pseudo-inversas primeiro e métricas de erro em segundo. É uma artefato de "sequência de aprendizado" em meus processos de pensamento e comunicação.
EngrStudent - Restabelece Monica
1
@EngrStudent, obrigado. Observe também que eu ofereci dois usos para uma função de perda: ajuste (função objetivo empírica da qual um estimador é derivado) e avaliação (função objetivo teórica que desejamos otimizar).
Richard Hardy

Respostas:

4

AIC e regressão de crista podem ser compatíveis quando certas suposições são feitas. No entanto, não existe um método único de escolher um encolhimento para a regressão da crista, portanto, não existe um método geral de aplicar o AIC a ele. A regressão de Ridge é um subconjunto da regularização de Tikhonov . Existem muitos critérios que podem ser aplicados à seleção de fatores de suavização para a regularização de Tikhonov, por exemplo, veja isso . Para usar a AIC nesse contexto, existe um artigo que faz suposições bastante específicas sobre como executar essa regularização, seleção de parâmetros de regularização baseada na complexidade da informação para solução de problemas inversos mal condicionados . Especificamente, isso pressupõe

"Em uma estrutura estatística, ... escolhendo o valor do parâmetro de regularização α e usando o método da máxima verossimilização penalizada (MPL) ... Se considerarmos o ruído gaussiano não correlacionado com variação σ2 e usar a penalidade p(x)= uma norma complicada, veja o link acima , a solução MPL é a mesma que a solução regularizada de Tikhonov (1963). "

A questão então se torna: essas suposições devem ser feitas? A questão dos graus de liberdade necessários é secundária à questão de saber se a AIC e a regressão de crista são ou não usadas em um contexto consistente. Eu sugeriria a leitura do link para obter detalhes. Não estou evitando a pergunta, é apenas que se pode usar muitas coisas como alvos de crista, por exemplo, se pode usar o fator de suavização que otimiza a própria AIC . Portanto, uma boa pergunta merece outra: "Por que se preocupar com a AIC em um contexto de cordilheira?" Em alguns contextos de regressão, é difícil ver como a AIC pode ser relevante. Por exemplo, a regressão de crista foi aplicada para minimizar a propagação de erro relativo de b , ou seja, min [SD(b)b] da distribuição gama (GD) dada por

GD(t;a,b)=1tebt(bt)aΓ(a);t0,

conforme este trabalho . Em particular, esta dificuldade surge porque, em que o papel, isto é, com efeito, a uma rea L nder a [0,) tempo C urve (AUC) que é optimizada, e não a probabilidade máxima (ML) de qualidade de ajuste entre medido [t1,tn]amostras de tempo. Para ser claro, isso é feito porque a AUC é uma integral incorreta e, caso contrário, por exemplo, usando ML, o ajuste da distribuição gama careceria de robustez. Assim, para essa aplicação específica, a probabilidade máxima, portanto, a AIC, é realmente irrelevante. (Diz-se que o AIC é usado para previsão e o BIC para ajuste de qualidade. No entanto, a previsão e o ajuste de qualidade estão ambos apenas indiretamente relacionados a uma medida robusta da AUC.)

dfλdf=pλ=0df=0λ=dfdf as the smoothing factor increases to . Note that for infinite smoothing the fit is a flat line irrespective of what density function is being fit. Finally, that the exact number of df is a function.

"One can show that dfridge=(λi/(λi+λ ), where {λi} are the eigenvalues of XTX." Interestingly, that same reference defines df as the trace of the hat matrix, see def.

Carl
fonte