Significado de 'número de parâmetros' em AIC

21

Ao calcular o AIC,

AIC=2k2lnL

k significa 'número de parâmetros'. Mas o que conta como parâmetro? Então, por exemplo, no modelo

y=ax+b

A e b são sempre contados como parâmetros? E se eu não me importo com o valor da interceptação, posso ignorá-lo ou ainda conta?

E se

y=af(c,x)+b

onde é uma função de c e x, agora conto 3 parâmetros?f

Sideshow Bob
fonte
9
Essa é uma boa pergunta, porque há uma sutileza: é o número de parâmetros identificáveis a serem estimados. Por exemplo, embora no modelo de regressão cinco parâmetros sejam escritos, no entanto . (Este modelo é equivalente a com e , que precisa explicitamente de apenas quatro parâmetros .)kYN(β0+β1X1+β2X2+β3(X1+X2),σ2) Y N ( β 0 + α 1 X 1 + α 2 X 2 , σ 2 ) α 1 = β 1 + β 3 α 2 = β 2 + β 3k=4YN(β0+α1X1+α2X2,σ2)α1=β1+β3α2=β2+β3
whuber
3
Estritamente, você conta todos os parâmetros livres e identificáveis ​​- parâmetros médios, parâmetros de forma e escala, o que quer que seja (e isso importa para o AIC ), mas para o AIC não tem importância se você omitir parâmetros comuns aos modelos que estão sendo comparados. Por exemplo, em regressão, você deve contar o parâmetro de variação. Portanto, pela minha contagem, todas as suas contagens de parâmetros na sua pergunta são uma curta - mas se houver exatamente uma em todos os modelos, não custa nada abandoná-la na AIC. R conta explicitamente o parâmetro de variação ao calcular o AIC em modelos de regressão. C
Glen_b -Reinstar Monica
@whuber Por que este excelente comentário não foi postado como resposta? :)
Alexis
Obrigado, @Alexis. Postei esse pensamento como um comentário, porque a idéia está adequadamente coberta na resposta de P Schnell: eu queria apenas enfatizá-lo um pouco mais.
whuber

Respostas:

17

Como Mugen mencionado, representa o número de parâmetros estimados . Em outras palavras, é o número de quantidades adicionais que você precisa conhecer para especificar completamente o modelo. No modelo de regressão linear simples é possível estimar , ou ambos. Quaisquer quantidades que você não estimar, devem ser corrigidas. Não há "ignorando" um parâmetro no sentido de que você não o conhece e não se importa com isso. O modelo mais comum que não estima e é o modelo sem interceptação, onde fixamos . Isso terá 1 parâmetro. Você poderia facilmente corrigir ouy = a x + b a b a b b = 0k

y=ax+b
ababb=0 0b = 1 σuma=2b=1se você tem algum motivo para acreditar que isso reflete a realidade. (Ponto fino: também é um parâmetro em uma regressão linear simples, mas como está presente em todos os modelos, você pode descartá-lo sem afetar as comparações da AIC.)σ

Se o seu modelo é o número de parâmetros depende se você corrige algum desses valores e na forma de . Por exemplo, se queremos estimar e sabemos que , quando escrevemos o modelo, temos com três parâmetros desconhecidos. Se, no entanto, , temos o modelo que realmente possui apenas dois parâmetros: e .f a , b , c f ( c , x ) = x c y = a x c + b f ( c , x ) = c x

y=umaf(c,x)+b
fuma,b,cf(c,x)=xc
y=umaxc+b
f(c,x)=cxa c b
y=umacx+b
umacb

É crucial que seja uma família de funções indexadas por . Se tudo que você sabe é que é contínuo e depende de e , então você está sem sorte, porque existem inúmeras funções contínuas.c f ( c , x ) c xf(c,x)cf(c,x)cx

P Schnell
fonte
2
(+1) Talvez valha a pena mencionar que ao longo de "estimativa" significa "estimativa por probabilidade máxima".
Scortchi - Reinstate Monica
Isso realmente importa? De fato, meu é uma simulação enorme, impossível de separar analiticamente e levar horas para calcular. Eu o tento com cerca de 20 valores diferentes de porque é tudo o que temos tempo e continuo com o valor de que fornece o melhor no final do dia. Portanto, de certa maneira, estimei melhor maneira possível, embora não como você faria em uma regressão. Certamente ainda conta como um parâmetro para a AIC? c c r 2 cf(c,x)ccr2c
Sideshow Bob
2
@SideshowBob: Sim - quando você compara dois modelos, a diferença nas probabilidades maximizadas de log é um estimador tendencioso da diferença na perda esperada de informações de Kullback-Leibler e o termo de penalidade no AIC corrige aproximadamente esse viés.
Scortchi - Restabelece Monica
1
@SideshowBob: Devo mencionar que há modificações da AIC para equações de estimativa generalizadas e similares - elas usam quase-probabilidade máxima maximizada e um termo de penalidade bastante mais complexo.
Scortchi - Restabelecer Monica
4

Para qualquer modelo estatístico, o valor do AIC é que k é o número de parâmetros no modelo e L é o valor maximizado da função de verossimilhança para o modelo.UMAEuC=2k-2em(eu)

(veja aqui )

Como você pode ver, representa o número de parâmetros estimados em cada modelo. Se o modelo incluir uma interceptação (ou seja, se você calcular uma estimativa pontual, variação e intervalo de confiança para a interceptação), ela será contabilizada como parâmetro. Por outro lado, se você estiver computando um modelo sem interceptação, ele não conta.k

Lembre-se de que a AIC não apenas resume a qualidade do ajuste, mas também considera a complexidade do modelo. É por isso que existe, para penalizar modelos com mais parâmetros.k

Não me sinto suficientemente informado para responder à sua segunda pergunta, deixarei para outro membro da comunidade.

mugen
fonte
1
Isso significa que se eu Box-Cox transformar x e y, então de cada uma dessas transformações também conta como parâmetro? λ
Sideshow Bob
1
Sim certamente.
PA6OTA 16/06
1

Primeiro, para aqueles que podem não estar familiarizados com a AIC: o Akaike Information Criterion (AIC) é uma métrica simples projetada para comparar a "bondade" dos modelos.

Segundo a AIC, ao tentar escolher entre dois modelos diferentes que se aplicam às mesmas variáveis ​​de entrada e resposta , ou seja, modelos projetados para resolver o mesmo problema, o modelo com a AIC mais baixa é considerado "melhor".

k

cf(c,x)k

arielf
fonte