Os valores típicos da AIC que eu já vi para modelos logísticos são de milhares, pelo menos centenas. Por exemplo, em http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/, o AIC é 727.39
Embora sempre se diga que o AIC deve ser usado apenas para comparar modelos, eu queria entender o que significa um valor específico do AIC. De acordo com a fórmula,
Onde, L = probabilidade máxima do estimador MLE, K é o número de parâmetros
No exemplo acima, K = 8
então, com aritmética simples:
727.9 = -2*log(L)+ 2*8
Hence, 711.39 = -2*log(L)
Hence, log (L)= 711.39/-2 = -355.695
Hence, L = exp(-355.695) = 3.3391E-155
Portanto, se meu entendimento estiver correto, essa é a probabilidade da função identificada pelo MLE ajustar os dados. Isso parece realmente muito baixo.
O que estou perdendo aqui?
Respostas:
Não existe uma probabilidade "típica" ou correta para um modelo. O mesmo com o AIC , que é uma probabilidade negativa de log penalizada por vários parâmetros. Um valor mais baixo da AIC sugere um modelo "melhor", mas é uma medida relativa do ajuste do modelo. É usado para a seleção de modelos, ou seja, permite comparar diferentes modelos estimados no mesmo conjunto de dados.
Lembre-se do GEP Box dizendo que "todos os modelos estão errados, mas alguns são úteis", você não está interessado em encontrar um modelo que se encaixe perfeitamente aos seus dados, porque é impossível e, em muitos casos, esse modelo seria muito ruim e super ajustado. . Em vez disso, você está procurando o melhor que pode obter, o mais útil. A idéia geral por trás da AIC é que o modelo com menor número de parâmetros é melhor, o que é de alguma forma consistente com o argumento básico de Occam , de que preferimos um modelo simples do que um complicado.
Você pode verificar os seguintes papéis:
Anderson, D. & Burnham, K. (2006). Mitos e mal-entendidos da AIC.
Burnham, KP e Anderson, DR (2004). Inferência multimodal. Noções básicas sobre AIC e BIC na seleção de modelos. Sociological Methods & Research, 33 (2), 261-304.
e esses tópicos:
Qual é a diferença entre "probabilidade" e "probabilidade"?
Existe algum motivo para preferir o AIC ou o BIC em detrimento do outro?
fonte
AIC é altamente relacionada com generalizada ( "pseudo") . Eu gosto de declarar AIC na escala de razão de verossimilhança χ 2 , embora isso não seja tradicional, ou seja, AIC reapresentado = χ 2 - 2R2 χ2 χ2- 2 × R2 1 - exp( - χ2/ n) R2 R2
fonte
Quantidades como a AIC, que envolvem o uso da probabilidade logarítmica, são significativas apenas em relação a outras tais quantidades . Lembre-se de que a função de probabilidade é definida apenas até uma constante de escala, para que possa ser dimensionada para cima ou para baixo à vontade. Consequentemente, a probabilidade de log é definida apenas até uma constante de local e pode ser alterada para cima ou para baixo à vontade. Isso vale também para a AIC, pois essa quantidade é apenas a probabilidade logarítmica, alterada por uma penalidade no número de parâmetros. Essa é a razão pela qual se diz que a AIC deve ser usada apenas para comparar modelos.
fonte
Você apontou corretamente que, se você calcular novamente a probabilidade, usando o AIC relatado por R, terá probabilidades ridiculamente baixas. O motivo é que o valor do AIC relatado pelo R (chamado AICrep) não é o AIC verdadeiro (AICtrue). AICrep e AICtrue diferem por uma constante que depende dos dados medidos, mas que é independente do modelo escolhido. Portanto, uma probabilidade calculada novamente no AICrep estará incorreta. São as diferenças nas AICs, quando modelos diferentes são usados para ajustar os mesmos dados, que são úteis na seleção do melhor modelo.
fonte