Normalmente, uso o BIC, pois entendo que ele valoriza a parcimônia mais fortemente do que o AIC. No entanto, eu decidi usar uma abordagem mais abrangente agora e gostaria de usar a AIC também. Eu sei que Raftery (1995) apresentou boas diretrizes para diferenças de BIC: 0-2 é fraco, 2-4 é evidência positiva de que um modelo é melhor etc.
Procurei nos livros didáticos e eles parecem estranhos na AIC (parece que uma diferença maior é fraca e uma diferença menor na AIC significa que um modelo é melhor). Isso vai contra o que eu sei que fui ensinado. Meu entendimento é que você deseja um AIC mais baixo.
Alguém sabe se as diretrizes de Raftery também se estendem à AIC, ou onde eu poderia citar algumas diretrizes para "força de evidência" para um modelo versus outro?
E sim, os pontos de corte não são ótimos (eu meio que os acho irritantes), mas são úteis ao comparar diferentes tipos de evidência.
fonte
Respostas:
AIC e BIC mantêm a mesma interpretação em termos de comparação de modelos. Ou seja, a maior diferença na AIC ou na BIC indica evidências mais fortes de um modelo em relação ao outro (quanto menor, melhor). É que o AIC não penaliza o número de parâmetros tão fortemente quanto o BIC. Há também uma correção no AIC (o AICc) usado para tamanhos de amostra menores. Mais informações sobre a comparação do AIC / BIC podem ser encontradas aqui .
fonte
Você está falando sobre duas coisas diferentes e as está misturando. No primeiro caso, você tem dois modelos (1 e 2) e obteve o AIC deles como e A I C 2 . Se você quiser comparar esses dois modelos com base nos AICs, o modelo com AIC inferior seria o preferido, por exemplo, se A I C 1 < A I C 2 , você escolhe o modelo 1 e vice-versa. No segundo caso, você tem um conjunto de modelos candidatos como modelos ( 1 , 2 , . . . , N )A IC1 A IC2 A IC1< A IC2
( 1 , 2 , . . . , N ) e para cada modelo que calcular as diferenças AIC como , em que A I C i é a AIC para o i th modelo e A I C m i n é o mínimo de AIC entre todos os modelos. Agora o modelo com Δ i > 10 não têm suporte e pode ser omitido a partir de uma análise mais aprofundada, como explicado em Selecção do modelo e Multi-Modelo de Inferência: Uma Abordagem informação teórica PráticoΔEu= A ICEu- A ICm i n A ICEu Eu A ICm i n ΔEu> 10 por Kenneth P. Burnham, David R. Anderson, página 71. Assim, quanto maior é o , o mais fraco seria o seu modelo. Aqui o melhor modelo tem Δ i ≡ Δ m i n ≡ 0.ΔEu ΔEu≡ Δm i n≡ 0.
fonte
Geralmente, nunca uso o AIC ou o BIC objetivamente para descrever o ajuste adequado para um modelo. Eu não usar esses ICs para comparar o ajuste relativo de dois modelos preditivos. No que diz respeito a um AIC de "2" ou "4", é completamente contextual. Se quiser ter uma idéia de como um modelo "bom" se encaixa, você pode (deve) sempre usar uma simulação. Sua compreensão da AIC está certa. A AIC recebe uma contribuição positiva dos parâmetros e uma contribuição negativa da probabilidade. O que você está tentando fazer é maximizar a probabilidade sem carregar seu modelo com vários parâmetros. Portanto, minha opinião de que estoura bolhas é que os cortes para a AIC não são bons fora de contexto.
fonte
Aqui está uma pergunta relacionada quando é apropriado selecionar modelos por minimizar o aic? . Ele fornece uma idéia geral do que as pessoas que não são irreconhecíveis no mundo acadêmico consideram apropriado escrever e que referências devem ser deixadas como importantes.
Geralmente, são as diferenças entre as probabilidades ou AICs que importam, e não seus valores absolutos. Você perdeu a importante palavra "diferença" no seu "BIC: 0-2 é fraco" na pergunta - consulte a TABELA 6 de Raftery - e é estranho que ninguém queira corrigir isso.
Eu próprio fui ensinado a procurar a MAICE (estimativa mínima da AIC - como Akaike a chamava). E daí? Aqui está o que uma pessoa famosa escreveu para uma senhora desconhecida:
Meus professores nunca ouviram falar de trabalhos com títulos como "Um teste para saber se dois AIC diferem significativamente" e nem me lembro que eles chamaram o AIC de estatística, que teria uma distribuição amostral e outras propriedades. Foi-me ensinado que o AIC é um critério a ser minimizado, se possível de alguma maneira automática.
Ainda outra questão importante, que acho que foi expressa aqui há alguns anos pelo IrishStat (de memória, desculpe-me se eu estiver errado por não encontrar essa resposta) é que o AIC, o BIC e outros critérios foram derivados para diferentes fins e sob condições diferentes (suposições), para que você não possa utilizá-las alternadamente se o seu objetivo for prever, por exemplo. Você não pode simplesmente preferir algo inapropriado.
Minhas fontes mostram que usei uma citação de Burnham e Anderson (2002, p.70) para escrever que o delta (diferenças da AIC) dentro de 0-2 tem um suporte substancial; delta dentro de 4-7 consideravelmente menos suporte e delta maior que 10 essencialmente nenhum suporte. Além disso, escrevi que "os autores também discutiram as condições sob as quais essas diretrizes podem ser úteis". O livro é citado na resposta de Stat, que votei como mais relevante.
fonte
Com relação aos critérios de informação, eis o que o SAS diz:
Existem dois procedimentos de teste de modelo comparativo: a) teste de Vuong eb) teste não paramétrico de Clarke. Veja este documento para detalhes.
fonte