Diretrizes da AIC na seleção de modelos

32

Normalmente, uso o BIC, pois entendo que ele valoriza a parcimônia mais fortemente do que o AIC. No entanto, eu decidi usar uma abordagem mais abrangente agora e gostaria de usar a AIC também. Eu sei que Raftery (1995) apresentou boas diretrizes para diferenças de BIC: 0-2 é fraco, 2-4 é evidência positiva de que um modelo é melhor etc.

Procurei nos livros didáticos e eles parecem estranhos na AIC (parece que uma diferença maior é fraca e uma diferença menor na AIC significa que um modelo é melhor). Isso vai contra o que eu sei que fui ensinado. Meu entendimento é que você deseja um AIC mais baixo.

Alguém sabe se as diretrizes de Raftery também se estendem à AIC, ou onde eu poderia citar algumas diretrizes para "força de evidência" para um modelo versus outro?

E sim, os pontos de corte não são ótimos (eu meio que os acho irritantes), mas são úteis ao comparar diferentes tipos de evidência.

Tom Carpenter
fonte
1
Este é o documento Raftery a que você está se referindo (pdf) ?
gung - Restabelece Monica
4
Os leitores aqui podem estar interessados ​​em ler o seguinte excelente tópico de CV: Existe algum motivo para preferir o AIC ou o BIC do que o outro?
gung - Restabelece Monica
1
A quais livros você está se referindo quando diz " Procurei nos livros e eles parecem estranhos na AIC (parece que uma diferença maior é fraca e uma diferença menor na AIC significa que um modelo é melhor) " - e o que eles realmente dizer?
Glen_b -Reinstala Monica
1
Seu segundo parágrafo não é claro. Você provavelmente quer dizer isso: embora grandes diferenças sugiram que o modelo com valores menores seja preferível, diferenças menores são difíceis de avaliar. Além disso, os estatísticos ainda não chegaram a um acordo sobre quais diferenças são 'pequenas' ou 'grandes' - Singer e Willet (2003, p.122)
Hibernando
1
Quanto ao seu terceiro parágrafo, se você quiser adotar as categorias de força evidencial avançadas por Jeffreys (1961, p. 432), posso lhe dar a referência completa.
Hibernando

Respostas:

23

AIC e BIC mantêm a mesma interpretação em termos de comparação de modelos. Ou seja, a maior diferença na AIC ou na BIC indica evidências mais fortes de um modelo em relação ao outro (quanto menor, melhor). É que o AIC não penaliza o número de parâmetros tão fortemente quanto o BIC. Há também uma correção no AIC (o AICc) usado para tamanhos de amostra menores. Mais informações sobre a comparação do AIC / BIC podem ser encontradas aqui .

dmartin
fonte
5
+1. Apenas para acrescentar / esclarecer: o AIC (e o AICc) emprega divergência entre KL. Portanto, exatamente porque o AIC reflete informações "adicionais", quanto menor, melhor. Em outras palavras, como o tamanho da amostra , o modelo com a pontuação mínima do AIC possuirá a menor divergência de Kullback-Leibler e, portanto, será o modelo mais próximo do modelo "verdadeiro". N
usεr11852 diz Reinstate Monic
28

Você está falando sobre duas coisas diferentes e as está misturando. No primeiro caso, você tem dois modelos (1 e 2) e obteve o AIC deles como e A I C 2 . Se você quiser comparar esses dois modelos com base nos AICs, o modelo com AIC inferior seria o preferido, por exemplo, se A I C 1 < A I C 2 , você escolhe o modelo 1 e vice-versa. No segundo caso, você tem um conjunto de modelos candidatos como modelos ( 1 , 2 , . . . , N )AIC1AIC2AIC1<AIC2
(1,2,...,n)e para cada modelo que calcular as diferenças AIC como , em que A I C i é a AIC para o i th modelo e A I C m i n é o mínimo de AIC entre todos os modelos. Agora o modelo com Δ i > 10 não têm suporte e pode ser omitido a partir de uma análise mais aprofundada, como explicado em Selecção do modelo e Multi-Modelo de Inferência: Uma Abordagem informação teórica PráticoΔi=AICiAICminAICiiAICminΔi>10por Kenneth P. Burnham, David R. Anderson, página 71. Assim, quanto maior é o , o mais fraco seria o seu modelo. Aqui o melhor modelo tem Δ iΔ m i n0.ΔiΔiΔmin0.

Stat
fonte
1
Aha! Isso esclareceu totalmente o bit "maior que". Obrigado!
Tom Carpenter
7

Geralmente, nunca uso o AIC ou o BIC objetivamente para descrever o ajuste adequado para um modelo. Eu não usar esses ICs para comparar o ajuste relativo de dois modelos preditivos. No que diz respeito a um AIC de "2" ou "4", é completamente contextual. Se quiser ter uma idéia de como um modelo "bom" se encaixa, você pode (deve) sempre usar uma simulação. Sua compreensão da AIC está certa. A AIC recebe uma contribuição positiva dos parâmetros e uma contribuição negativa da probabilidade. O que você está tentando fazer é maximizar a probabilidade sem carregar seu modelo com vários parâmetros. Portanto, minha opinião de que estoura bolhas é que os cortes para a AIC não são bons fora de contexto.

AdamO
fonte
E se seus modelos não permitirem nenhuma simulação?
Stat
6
Tut-tut! Como isso é possível? Pode-se iniciar o mundo.
Adamo
Boa sorte com isso ... simule o mundo rsrs
Stat
2
@Stat Eu sou muito sério quando digo que não consigo conceber uma situação em que seria impossível simular dados de um modelo. No mínimo, a inicialização do conjunto de dados de treinamento é qualificada como uma abordagem de simulação válida.
AdamO 7/01/14
Quando o bootstrapping é difícil, a validação cruzada ou mesmo o simples jackknifing devem funcionar. Além disso, a média do modelo fornece um meio para reconciliar informações de modelos com AICs semelhantes.
N Brouwer
2

Aqui está uma pergunta relacionada quando é apropriado selecionar modelos por minimizar o aic? . Ele fornece uma idéia geral do que as pessoas que não são irreconhecíveis no mundo acadêmico consideram apropriado escrever e que referências devem ser deixadas como importantes.

Geralmente, são as diferenças entre as probabilidades ou AICs que importam, e não seus valores absolutos. Você perdeu a importante palavra "diferença" no seu "BIC: 0-2 é fraco" na pergunta - consulte a TABELA 6 de Raftery - e é estranho que ninguém queira corrigir isso.

Eu próprio fui ensinado a procurar a MAICE (estimativa mínima da AIC - como Akaike a chamava). E daí? Aqui está o que uma pessoa famosa escreveu para uma senhora desconhecida:

Dear Miss -- 
I have read about sixteen pages of your manuscript ... I suffered exactly the same 
treatment at the hands of my teachers who disliked me for my independence and passed 
over me when they wanted assistants ... keep your manuscript for your sons and
daughters, in order that they may derive consolation from it and not give a damn for
what their teachers tell them or think of them. ... There is too much education
altogether.

Meus professores nunca ouviram falar de trabalhos com títulos como "Um teste para saber se dois AIC diferem significativamente" e nem me lembro que eles chamaram o AIC de estatística, que teria uma distribuição amostral e outras propriedades. Foi-me ensinado que o AIC é um critério a ser minimizado, se possível de alguma maneira automática.

Ainda outra questão importante, que acho que foi expressa aqui há alguns anos pelo IrishStat (de memória, desculpe-me se eu estiver errado por não encontrar essa resposta) é que o AIC, o BIC e outros critérios foram derivados para diferentes fins e sob condições diferentes (suposições), para que você não possa utilizá-las alternadamente se o seu objetivo for prever, por exemplo. Você não pode simplesmente preferir algo inapropriado.

Minhas fontes mostram que usei uma citação de Burnham e Anderson (2002, p.70) para escrever que o delta (diferenças da AIC) dentro de 0-2 tem um suporte substancial; delta dentro de 4-7 consideravelmente menos suporte e delta maior que 10 essencialmente nenhum suporte. Além disso, escrevi que "os autores também discutiram as condições sob as quais essas diretrizes podem ser úteis". O livro é citado na resposta de Stat, que votei como mais relevante.

Hibernando
fonte
0

Com relação aos critérios de informação, eis o que o SAS diz:

"Observe que critérios de informação como Akaike (AIC), Schwarz (SC, BIC) e QIC podem ser usados ​​para comparar modelos concorrentes não aninhados, mas não fornecem um teste de comparação. Consequentemente, eles não podem indicar se um modelo é significativamente melhor que outro. Os procedimentos GENMOD, LOGISTIC, GLIMMIX, MIXED e outros fornecem medidas de critérios de informação. "

Existem dois procedimentos de teste de modelo comparativo: a) teste de Vuong eb) teste não paramétrico de Clarke. Veja este documento para detalhes.

Métricas
fonte
Acho que a notação matemática empregada no "artigo" citado (isto é, apresentação) não é compreensível sem comentários. Em particular, o que a linha de traços simboliza? Implicação?
Adam Ryczkowski