Interpretação do valor da AIC

9

Os valores típicos da AIC que eu já vi para modelos logísticos são de milhares, pelo menos centenas. Por exemplo, em http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/, o AIC é 727.39

Embora sempre se diga que o AIC deve ser usado apenas para comparar modelos, eu queria entender o que significa um valor específico do AIC. De acordo com a fórmula, UMAEuC=-2registro(eu)+2K

Onde, L = probabilidade máxima do estimador MLE, K é o número de parâmetros

No exemplo acima, K = 8

então, com aritmética simples:

727.9 = -2*log(L)+ 2*8
Hence, 711.39 = -2*log(L)
Hence, log (L)= 711.39/-2 = -355.695
Hence, L = exp(-355.695) = 3.3391E-155

Portanto, se meu entendimento estiver correto, essa é a probabilidade da função identificada pelo MLE ajustar os dados. Isso parece realmente muito baixo.

O que estou perdendo aqui?

TAK
fonte
Se olharmos para ele como
pmf(dados observados;estimativas de parâmetros)
Björn
Desculpe, foi cortado, se olharmos dessa maneira, isso sugere que, com o grande número de registros, obter exatamente os dados observados não era tão provável para as estimativas de parâmetros.
Björn

Respostas:

9

Não existe uma probabilidade "típica" ou correta para um modelo. O mesmo com o AIC , que é uma probabilidade negativa de log penalizada por vários parâmetros. Um valor mais baixo da AIC sugere um modelo "melhor", mas é uma medida relativa do ajuste do modelo. É usado para a seleção de modelos, ou seja, permite comparar diferentes modelos estimados no mesmo conjunto de dados.

Lembre-se do GEP Box dizendo que "todos os modelos estão errados, mas alguns são úteis", você não está interessado em encontrar um modelo que se encaixe perfeitamente aos seus dados, porque é impossível e, em muitos casos, esse modelo seria muito ruim e super ajustado. . Em vez disso, você está procurando o melhor que pode obter, o mais útil. A idéia geral por trás da AIC é que o modelo com menor número de parâmetros é melhor, o que é de alguma forma consistente com o argumento básico de Occam , de que preferimos um modelo simples do que um complicado.

Você pode verificar os seguintes papéis:

Anderson, D. & Burnham, K. (2006). Mitos e mal-entendidos da AIC.

Burnham, KP e Anderson, DR (2004). Inferência multimodal. Noções básicas sobre AIC e BIC na seleção de modelos. Sociological Methods & Research, 33 (2), 261-304.

e esses tópicos:

Qual é a diferença entre "probabilidade" e "probabilidade"?

Existe algum motivo para preferir o AIC ou o BIC em detrimento do outro?

Tim
fonte
3

AIC é altamente relacionada com generalizada ( "pseudo") . Eu gosto de declarar AIC na escala de razão de verossimilhança χ 2 , embora isso não seja tradicional, ou seja, AIC reapresentado = χ 2 - 2R2χ2χ2-2×R21 1-exp(-χ2/n)R2R2

Frank Harrell
fonte
1

Isso parece realmente muito baixo. O que estou perdendo aqui?

Quantidades como a AIC, que envolvem o uso da probabilidade logarítmica, são significativas apenas em relação a outras tais quantidades . Lembre-se de que a função de probabilidade é definida apenas até uma constante de escala, para que possa ser dimensionada para cima ou para baixo à vontade. Consequentemente, a probabilidade de log é definida apenas até uma constante de local e pode ser alterada para cima ou para baixo à vontade. Isso vale também para a AIC, pois essa quantidade é apenas a probabilidade logarítmica, alterada por uma penalidade no número de parâmetros. Essa é a razão pela qual se diz que a AIC deve ser usada apenas para comparar modelos.

n=800

^=(727,9-2×8)/(-2)=-355,95.

^/n=-0.44493750.6408643

Ben - Restabelecer Monica
fonte
0

Você apontou corretamente que, se você calcular novamente a probabilidade, usando o AIC relatado por R, terá probabilidades ridiculamente baixas. O motivo é que o valor do AIC relatado pelo R (chamado AICrep) não é o AIC verdadeiro (AICtrue). AICrep e AICtrue diferem por uma constante que depende dos dados medidos, mas que é independente do modelo escolhido. Portanto, uma probabilidade calculada novamente no AICrep estará incorreta. São as diferenças nas AICs, quando modelos diferentes são usados ​​para ajustar os mesmos dados, que são úteis na seleção do melhor modelo.

W. Rose
fonte