O AIC e o BIC são os dois métodos de avaliação do ajuste do modelo penalizados pelo número de parâmetros estimados. Pelo que entendi, o BIC penaliza mais os modelos por parâmetros livres do que o AIC. Além de uma preferência baseada no rigor dos critérios, existem outros motivos para preferir a AIC ao invés da BIC ou vice-versa?
modeling
aic
cross-validation
bic
model-selection
russellpierce
fonte
fonte
Respostas:
Sua pergunta implica que a AIC e a BIC tentem responder à mesma pergunta, o que não é verdade. A AIC tenta selecionar o modelo que melhor descreve uma realidade desconhecida e de alta dimensão. Isso significa que a realidade nunca está no conjunto de modelos candidatos que estão sendo considerados. Pelo contrário, o BIC tenta encontrar o modelo TRUE entre o conjunto de candidatos. Acho bastante estranho a suposição de que a realidade é instanciada em um dos modelos que os pesquisadores construíram ao longo do caminho. Este é um problema real para a BIC.
No entanto, muitos pesquisadores dizem que o BIC é melhor que o AIC, usando simulações de recuperação de modelo como argumento. Essas simulações consistem em gerar dados dos modelos A e B e depois ajustar os dois conjuntos de dados aos dois modelos. O sobreajuste ocorre quando o modelo errado ajusta os dados melhor do que a geração. O objetivo dessas simulações é ver o quão bem o AIC e o BIC corrigem esses ajustes. Geralmente, os resultados apontam para o fato de a AIC ser muito liberal e ainda preferir um modelo mais complexo e errado do que um modelo mais simples e verdadeiro. À primeira vista, essas simulações parecem ser realmente bons argumentos, mas o problema com elas é que elas não fazem sentido para a AIC. Como eu disse antes, a AIC não considera que nenhum dos modelos candidatos em teste seja realmente verdadeiro. Segundo a AIC, todos os modelos são aproximações da realidade, e a realidade nunca deve ter uma baixa dimensionalidade. Pelo menos menor do que alguns dos modelos candidatos.
Minha recomendação é usar o AIC e o BIC. Na maioria das vezes, eles concordam com o modelo preferido; quando não concordam, basta denunciá-lo.
Se você está insatisfeito com o AIC e o BIC e tem tempo livre para investir, procure o Comprimento Mínimo da Descrição (MDL), uma abordagem totalmente diferente que supera as limitações do AIC e do BIC. Existem várias medidas decorrentes do MDL, como a máxima verossimilhança normalizada ou a aproximação de informações de Fisher. O problema com o MDL é que é matematicamente exigente e / ou computacionalmente intensivo.
Ainda assim, se você quiser se concentrar em soluções simples, uma boa maneira de avaliar a flexibilidade do modelo (especialmente quando o número de parâmetros é igual, tornando o AIC e o BIC inúteis) está executando o Parametric Bootstrap, que é bastante fácil de implementar. Aqui está um link para um artigo sobre ele.
Algumas pessoas aqui defendem o uso da validação cruzada. Eu pessoalmente o usei e não tenho nada contra, mas o problema é que a escolha entre a regra de corte de amostras (deixar de lado, dobrar em K, etc.) é inquestionável.
fonte
Embora o AIC e o BIC sejam orientados pela estimativa de máxima verossimilhança e penalizem parâmetros livres em um esforço para combater o excesso de ajustes, eles o fazem de maneiras que resultam em comportamentos significativamente diferentes. Vamos olhar para uma versão comumente apresentada dos métodos (que resulta em estipular erros normalmente distribuídos e outras suposições bem comportadas):
e
Onde:
O melhor modelo do grupo comparado é o que minimiza essas pontuações, nos dois casos. Claramente, o AIC não depende diretamente do tamanho da amostra. Além disso, de um modo geral, o AIC apresenta o perigo de que ele possa se super-ajustar, enquanto o BIC apresenta o perigo de que ele possa se desajustar, simplesmente em virtude de como eles penalizam parâmetros livres (2 * k no AIC; ln (N) * k no BIC). Diacronicamente, à medida que os dados são introduzidos e as pontuações são recalculadas, o NIC relativamente baixo (7 e menos) é mais tolerante aos parâmetros livres do que o AIC, mas menos tolerante ao N superior (como o log natural de N supera 2).
Além disso, o AIC tem como objetivo encontrar o melhor modelo de aproximação ao processo de geração de dados desconhecido (minimizando a divergência estimada de KL estimada ). Como tal, ele falha em convergir em probabilidade para o modelo verdadeiro (supondo que um esteja presente no grupo avaliado), enquanto o BIC converge, pois N tende ao infinito.
Portanto, como em muitas questões metodológicas, o que é preferido depende do que você está tentando fazer, que outros métodos estão disponíveis e se algum dos recursos descritos (convergência, tolerância relativa para parâmetros livres, minimização da divergência esperada de KL) ), fale com seus objetivos.
fonte
Minha rápida explicação é
fonte
Na minha experiência, o BIC resulta em grave desajustamento e o AIC geralmente apresenta um bom desempenho, quando o objetivo é maximizar a discriminação preditiva.
fonte
Uma "derivação" informativa e acessível da AIC e da BIC por Brian Ripley pode ser encontrada aqui: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf
Ripley fornece algumas observações sobre as suposições por trás dos resultados matemáticos. Ao contrário do que algumas das outras respostas indicam, Ripley enfatiza que a AIC se baseia na suposição de que o modelo é verdadeiro. Se o modelo não for verdadeiro, um cálculo geral revelará que o "número de parâmetros" deve ser substituído por uma quantidade mais complicada. Algumas referências são fornecidas nos slides de Ripleys. Observe, no entanto, que para regressão linear (estritamente falando com uma variação conhecida), em geral, a quantidade mais complicada simplifica para ser igual ao número de parâmetros.
fonte
De fato, a única diferença é que o BIC é estendido pelo AIC para levar em consideração o número de objetos (amostras). Eu diria que, embora ambos sejam bastante fracos (em comparação com, por exemplo, validação cruzada), é melhor usar o AIC, do que mais pessoas estarão familiarizadas com a abreviação - na verdade, nunca vi um documento ou programa em que o BIC pudesse ser usado (ainda admito que estou inclinado a problemas em que esses critérios simplesmente não funcionam).
Editar: AIC e BIC são equivalentes à validação cruzada, desde que sejam fornecidas duas suposições importantes - quando elas são definidas; portanto, quando o modelo é de probabilidade máxima e quando você está interessado apenas no desempenho do modelo em dados de treinamento. No caso de recolher alguns dados em algum tipo de consenso, eles estão perfeitamente bem.
No caso de criar uma máquina de previsão para algum problema do mundo real, o primeiro é falso, já que o seu conjunto de treinamento representa apenas um pedaço de informação sobre o problema com o qual você está lidando, portanto, você não pode otimizar seu modelo; o segundo é falso, porque você espera que seu modelo manipule os novos dados para os quais você nem pode esperar que o conjunto de treinamento seja representativo. E, para esse fim, o CV foi inventado; para simular o comportamento do modelo quando confrontado com dados independentes. No caso de seleção de modelo, o CV fornece não apenas a qualidade aproximada, mas também a distribuição aproximada da qualidade, por isso tem essa grande vantagem de poder dizer "Não sei, sejam quais forem os novos dados, qualquer um deles pode ser Melhor."
fonte
Como você mencionou, AIC e BIC são métodos para penalizar modelos por terem mais variáveis regressivas. Uma função de penalidade é usada nesses métodos, que é uma função do número de parâmetros no modelo.
Ao aplicar o AIC, a função de penalidade é z (p) = 2 p .
Ao aplicar o BIC, a função de penalidade é z (p) = p ln ( n ), que se baseia na interpretação da penalidade como decorrente de informações anteriores (daí o nome Critério de Informação Bayesiano).
Quando n é grande, os dois modelos produzirão resultados bastante diferentes. Em seguida, o BIC aplica uma penalidade muito maior a modelos complexos e, portanto, leva a modelos mais simples que o AIC. No entanto, conforme declarado na Wikipedia na BIC :
fonte
Pelo que sei, não há muita diferença entre AIC e BIC. Ambas são aproximações matematicamente convenientes que se pode fazer para comparar modelos com eficiência. Se eles fornecerem modelos "melhores" diferentes, provavelmente significa que você tem alta incerteza, o que é mais importante para se preocupar do que se você deve usar o AIC ou o BIC. Pessoalmente, gosto mais da BIC porque ela pede mais (menos) de um modelo se tiver mais (menos) dados para ajustar seus parâmetros - como um professor pedindo um padrão de desempenho mais alto (mais baixo) se o aluno tiver mais (menos) ) tempo para aprender sobre o assunto. Para mim, isso parece ser a coisa mais intuitiva a se fazer. Mas tenho certeza de que também existem argumentos igualmente intuitivos e convincentes para a AIC, dada sua forma simples.
Agora, sempre que você fizer uma aproximação, certamente haverá algumas condições quando essas aproximações forem lixo. Isso pode ser visto certamente para a AIC, onde existem muitos "ajustes" (AICc) para dar conta de certas condições que tornam a aproximação original ruim. Isso também está presente para o BIC, porque existem vários outros métodos mais exatos (mas ainda eficientes), como Aproximações de Fully Laplace para misturas de g-priors de Zellner (BIC é uma aproximação ao método de aproximação de Laplace para integrais).
Um lugar em que ambos são uma porcaria é quando você tem informações prévias substanciais sobre os parâmetros em qualquer modelo. AIC e BIC penalizam desnecessariamente modelos onde os parâmetros são parcialmente conhecidos em comparação com modelos que exigem que os parâmetros sejam estimados a partir dos dados.
E, em seguida, continuando a atribuir os mesmos modelos de probabilidade (mesmos parâmetros, mesmos dados, mesmas aproximações etc.), receberei o mesmo conjunto de valores BIC. Somente anexando algum tipo de significado único à letra lógica "M" é que se atrai perguntas irrelevantes sobre o "modelo verdadeiro" (ecos da "religião verdadeira"). A única coisa que "define" M são as equações matemáticas que a utilizam em seus cálculos - e isso quase nunca define uma e apenas uma definição. Eu poderia igualmente fazer uma proposição de previsão sobre M ("o i-ésimo modelo fornecerá as melhores previsões"). Pessoalmente, não consigo ver como isso mudaria as probabilidades e, portanto, quão bom ou ruim o BIC será (o AIC também) - embora o AIC seja baseado em uma derivação diferente)
E, além disso, o que está errado com a declaração Se o verdadeiro modelo está no conjunto Estou pensando, então há uma probabilidade de 57% que é o modelo B . Parece bastante razoável para mim, ou você pode ir para a versão mais "suave", há uma probabilidade de 57% de que o modelo B é o melhor do conjunto considerado
Um último comentário: acho que você encontrará tantas opiniões sobre a AIC / BIC quanto pessoas que as conhecem.
fonte
AIC raramente deve ser usado, pois é realmente apenas válido assintoticamente. É quase sempre melhor usar AICc (AIC com um c orrecção para tamanho de amostra finita). AIC tende a super parametrizar: esse problema é bastante reduzido com o AICc. A principal exceção ao uso do AICc é quando as distribuições subjacentes são fortemente leptokurtic. Para mais informações, consulte o livro Seleção de modelo de Burnham & Anderson.
fonte
AIC e BIC são critérios de informação para comparar modelos. Cada um tenta equilibrar o ajuste e a parcimônia do modelo e cada um penaliza de maneira diferente pelo número de parâmetros.
Eu não ouvi falar do KIC.
fonte
Muito brevemente:
Observe que o erro LOOCV também pode ser calculado analiticamente a partir dos resíduos e da diagonal da matriz hat , sem ter que realmente executar nenhuma validação cruzada. Isso sempre seria uma alternativa à AIC como uma aproximação assintótica do erro LOOCV.
Referências
Stone M. (1977) Uma equivalência assintótica da escolha do modelo por validação cruzada e critério de Akaike. Jornal da Sociedade Real de Estatística Série B. 39, 44–7.
Shao J. (1997) Uma teoria assintótica para seleção linear de modelos. Statistica Sinica 7, 221-242.
fonte