Existe algum motivo para preferir o AIC ou o BIC em detrimento do outro?

222

O AIC e o BIC são os dois métodos de avaliação do ajuste do modelo penalizados pelo número de parâmetros estimados. Pelo que entendi, o BIC penaliza mais os modelos por parâmetros livres do que o AIC. Além de uma preferência baseada no rigor dos critérios, existem outros motivos para preferir a AIC ao invés da BIC ou vice-versa?

russellpierce
fonte
11
Eu acho que é mais apropriado chamar essa discussão como seleção "recurso" ou seleção "covariável". Para mim, a seleção de modelos é muito mais ampla, envolvendo a especificação da distribuição de erros, a forma da função de link e a forma de covariáveis. Quando falamos sobre AIC / BIC, normalmente estamos na situação em que todos os aspectos da construção de modelos são fixos, exceto a seleção de covariáveis.
6
A decisão das covariáveis ​​específicas a serem incluídas em um modelo geralmente é realizada pelo termo seleção de modelo e há vários livros com seleção de modelo no título que decidem principalmente quais covariáveis ​​/ parâmetros de modelo incluir no modelo.
Michael Chernick
Não sei se sua pergunta se aplica especificamente à filogenia (bioinformática), mas se sim, este estudo pode fornecer algumas reflexões sobre este aspecto: ncbi.nlm.nih.gov/pmc/articles/PMC2925852
tlorin
A pergunta mesclada também faz perguntas sobre o KIC , atualize o texto da pergunta e indique uma definição de KIC, pref com link.
SMCI
11
@smci Adicionei stats.stackexchange.com/questions/383923/… para permitir que as pessoas pesquisem questões relacionadas à CCI, se estiverem interessadas.
russellpierce

Respostas:

179

Sua pergunta implica que a AIC e a BIC tentem responder à mesma pergunta, o que não é verdade. A AIC tenta selecionar o modelo que melhor descreve uma realidade desconhecida e de alta dimensão. Isso significa que a realidade nunca está no conjunto de modelos candidatos que estão sendo considerados. Pelo contrário, o BIC tenta encontrar o modelo TRUE entre o conjunto de candidatos. Acho bastante estranho a suposição de que a realidade é instanciada em um dos modelos que os pesquisadores construíram ao longo do caminho. Este é um problema real para a BIC.

No entanto, muitos pesquisadores dizem que o BIC é melhor que o AIC, usando simulações de recuperação de modelo como argumento. Essas simulações consistem em gerar dados dos modelos A e B e depois ajustar os dois conjuntos de dados aos dois modelos. O sobreajuste ocorre quando o modelo errado ajusta os dados melhor do que a geração. O objetivo dessas simulações é ver o quão bem o AIC e o BIC corrigem esses ajustes. Geralmente, os resultados apontam para o fato de a AIC ser muito liberal e ainda preferir um modelo mais complexo e errado do que um modelo mais simples e verdadeiro. À primeira vista, essas simulações parecem ser realmente bons argumentos, mas o problema com elas é que elas não fazem sentido para a AIC. Como eu disse antes, a AIC não considera que nenhum dos modelos candidatos em teste seja realmente verdadeiro. Segundo a AIC, todos os modelos são aproximações da realidade, e a realidade nunca deve ter uma baixa dimensionalidade. Pelo menos menor do que alguns dos modelos candidatos.

Minha recomendação é usar o AIC e o BIC. Na maioria das vezes, eles concordam com o modelo preferido; quando não concordam, basta denunciá-lo.

Se você está insatisfeito com o AIC e o BIC e tem tempo livre para investir, procure o Comprimento Mínimo da Descrição (MDL), uma abordagem totalmente diferente que supera as limitações do AIC e do BIC. Existem várias medidas decorrentes do MDL, como a máxima verossimilhança normalizada ou a aproximação de informações de Fisher. O problema com o MDL é que é matematicamente exigente e / ou computacionalmente intensivo.

Ainda assim, se você quiser se concentrar em soluções simples, uma boa maneira de avaliar a flexibilidade do modelo (especialmente quando o número de parâmetros é igual, tornando o AIC e o BIC inúteis) está executando o Parametric Bootstrap, que é bastante fácil de implementar. Aqui está um link para um artigo sobre ele.

Algumas pessoas aqui defendem o uso da validação cruzada. Eu pessoalmente o usei e não tenho nada contra, mas o problema é que a escolha entre a regra de corte de amostras (deixar de lado, dobrar em K, etc.) é inquestionável.

Dave Kellen
fonte
7
A diferença pode ser vista puramente do ponto de vista matemático - o BIC foi derivado como uma expansão assintótica do log P (dados), onde os parâmetros do modelo verdadeiro são amostrados de acordo com o desaparecimento arbitrário em nenhum lugar anterior, o AIC foi similarmente derivado com os parâmetros reais mantidos fixos
Yaroslav Bulatov
4
Você disse que "muitos pesquisadores dizem que o BIC é melhor que o AIC, usando simulações de recuperação de modelo como argumento. Essas simulações consistem em gerar dados dos modelos A e B e depois ajustar os dois conjuntos de dados nos dois modelos". Você gostaria de apontar algumas referências? Estou curioso sobre eles! :)
deps_stats
2
Não acredito nas declarações deste post.
User9352
16
(-1) Ótima explicação, mas eu gostaria de contestar uma afirmação. @Dave Kellen Você poderia, por favor, dar uma referência para onde está a idéia de que o modelo TRUE deve estar no cenário da BIC? Eu gostaria de investigar isso, pois neste livro os autores dão uma prova convincente de que esse não é o caso.
gui11aume
2
Ótima resposta, mas discordo totalmente da afirmação "a realidade nunca deve ter uma baixa dimensionalidade". Isso depende de qual "ciência" você está aplicando modelos yoru
David
76

Embora o AIC e o BIC sejam orientados pela estimativa de máxima verossimilhança e penalizem parâmetros livres em um esforço para combater o excesso de ajustes, eles o fazem de maneiras que resultam em comportamentos significativamente diferentes. Vamos olhar para uma versão comumente apresentada dos métodos (que resulta em estipular erros normalmente distribuídos e outras suposições bem comportadas):

  • AIC = -2 * ln (probabilidade) + 2 * k,

e

  • BIC = -2 * ln (probabilidade) + ln (N) * k,

Onde:

  • k = graus de liberdade do modelo
  • N = número de observações

O melhor modelo do grupo comparado é o que minimiza essas pontuações, nos dois casos. Claramente, o AIC não depende diretamente do tamanho da amostra. Além disso, de um modo geral, o AIC apresenta o perigo de que ele possa se super-ajustar, enquanto o BIC apresenta o perigo de que ele possa se desajustar, simplesmente em virtude de como eles penalizam parâmetros livres (2 * k no AIC; ln (N) * k no BIC). Diacronicamente, à medida que os dados são introduzidos e as pontuações são recalculadas, o NIC relativamente baixo (7 e menos) é mais tolerante aos parâmetros livres do que o AIC, mas menos tolerante ao N superior (como o log natural de N supera 2).

Além disso, o AIC tem como objetivo encontrar o melhor modelo de aproximação ao processo de geração de dados desconhecido (minimizando a divergência estimada de KL estimada ). Como tal, ele falha em convergir em probabilidade para o modelo verdadeiro (supondo que um esteja presente no grupo avaliado), enquanto o BIC converge, pois N tende ao infinito.

Portanto, como em muitas questões metodológicas, o que é preferido depende do que você está tentando fazer, que outros métodos estão disponíveis e se algum dos recursos descritos (convergência, tolerância relativa para parâmetros livres, minimização da divergência esperada de KL) ), fale com seus objetivos.

John L. Taylor
fonte
8
boa resposta. uma possível alternativa para o AIC e o BIC é que o AIC diz que "efeitos espúrios" não se tornam mais fáceis de detectar à medida que o tamanho da amostra aumenta (ou que não nos importamos se efeitos espúrios entram no modelo), o BIC diz que sim. Pode-se ver da perspectiva do OLS como no artigo de Raftery de 1994, o efeito se torna aproximadamente "significativo" (ou seja, prefere um modelo maior) na AIC se sua estatística t for maior que , BIC se sua estatística t for maior que | t| >|t|>2|t|>log(n)
probabilityislogic
2
Boa resposta, +1. Eu gosto especialmente da ressalva sobre se o modelo verdadeiro está realmente presente no grupo avaliado. Eu argumentaria que "o verdadeiro modelo" nunca está presente. (Box & Draper disseram que "todos os modelos são falsos, mas alguns são úteis", e Burnham & Anderson chamam isso de "tamanhos de efeitos cônicos".) É por isso que não me impressiono com a convergência da BIC sob suposições irreais e muito mais com o objetivo da AIC na melhor aproximação entre os modelos que realmente olhamos.
Stephan Kolassa
68

Minha rápida explicação é

  • AIC é melhor para previsão, pois é assintoticamente equivalente à validação cruzada.
  • O BIC é melhor para explicação, pois permite uma estimativa consistente do processo de geração de dados subjacente.
Rob Hyndman
fonte
AIC é equivalente à validação cruzada K-fold, BIC é equivalente à validação cruzada leve-one-out. Ainda assim, ambos os teoremas são válidos apenas em caso de regressão linear.
5
mbq, é AIC / LOO (não LKO ou K-fold) e não acho que a prova em Stone 1977 tenha se baseado em modelos lineares. Não conheço os detalhes do resultado da BIC.
Ars
11
ars está correto. É AIC = LOO e BIC = dobra K onde K é uma função complicada do tamanho da amostra.
22810 Rob Robndndman
Parabéns, você me pegou; Eu estava com pressa escrevendo isso e cometi esse erro, obviamente é assim que Rob o escreveu. Neverthelss é de Shao 1995, onde havia uma suposição de que o modelo é linear. Analisarei Stone, ainda acho que você, ars, pode estar certo, já que o LOO em meu campo tem reputação tão ruim quanto vários ICs.
A descrição na Wikipedia ( en.wikipedia.org/wiki/… ) faz parecer que a validação cruzada com dobras em K é como uma simulação repetida para estimar a estabilidade dos parâmetros. Eu posso ver por que se espera que o AIC seja estável com o LOO (já que o LOO pode ser realizado exaustivamente), mas não entendo por que o BIC seria estável com dobras K, a menos que K também seja exaustivo. A fórmula complexa subjacente ao valor de K a torna exaustiva? Ou algo mais está acontecendo?
russellpierce
16

Na minha experiência, o BIC resulta em grave desajustamento e o AIC geralmente apresenta um bom desempenho, quando o objetivo é maximizar a discriminação preditiva.

Frank Harrell
fonte
11
Muito atrasado, mas como esse ranking ainda está alto no Google, você se importa em elaborar em que área está trabalhando? Só estou curioso para saber se há algum efeito de domínio.
usar o seguinte código
@verybadatthis: bioestatística clínica (apenas no google "Frank Harrell", ele tem uma presença na web)
Ben Bolker 20/01
13

Uma "derivação" informativa e acessível da AIC e da BIC por Brian Ripley pode ser encontrada aqui: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

Ripley fornece algumas observações sobre as suposições por trás dos resultados matemáticos. Ao contrário do que algumas das outras respostas indicam, Ripley enfatiza que a AIC se baseia na suposição de que o modelo é verdadeiro. Se o modelo não for verdadeiro, um cálculo geral revelará que o "número de parâmetros" deve ser substituído por uma quantidade mais complicada. Algumas referências são fornecidas nos slides de Ripleys. Observe, no entanto, que para regressão linear (estritamente falando com uma variação conhecida), em geral, a quantidade mais complicada simplifica para ser igual ao número de parâmetros.

NRH
fonte
3
(+1) No entanto, Ripley está errado no ponto em que diz que os modelos devem ser aninhados. Não existe tal restrição na derivação original de Akaike, ou, para ser mais claro, na derivação usando o AIC como um estimador da divergência Kullback-Leibler. De fato, em um artigo em que estou trabalhando, mostro um pouco "empiricamente" que o AIC pode até ser usado para a seleção de modelos de estruturas de covariância (número diferente de parâmetros, modelos claramente não aninhados). Dos milhares de simulações de séries temporais que eu corri com diferentes estruturas de covariâncias, em nenhum deles o AIC erra ...
Néstor
... se o modelo "correto" está de fato no conjunto de modelos (isso, no entanto, também implica que, para os modelos em que estou trabalhando, a variação do estimador é muito pequena ... mas isso é apenas uma técnica detalhe).
Néstor
11
@ Néstor, eu concordo. O ponto sobre os modelos serem aninhados é estranho.
NRH 16/08/12
3
Ao selecionar estruturas de covariância para dados longitudinais (modelos de efeitos mistos ou mínimos quadrados generalizados), a AIC pode encontrar facilmente a estrutura errada se houver mais de três estruturas candidatas. Se houver mais de 3, você precisará usar o bootstrap ou outros meios para ajustar a incerteza do modelo causada pelo uso do AIC para selecionar a estrutura.
Frank Harrell
8

De fato, a única diferença é que o BIC é estendido pelo AIC para levar em consideração o número de objetos (amostras). Eu diria que, embora ambos sejam bastante fracos (em comparação com, por exemplo, validação cruzada), é melhor usar o AIC, do que mais pessoas estarão familiarizadas com a abreviação - na verdade, nunca vi um documento ou programa em que o BIC pudesse ser usado (ainda admito que estou inclinado a problemas em que esses critérios simplesmente não funcionam).

Editar: AIC e BIC são equivalentes à validação cruzada, desde que sejam fornecidas duas suposições importantes - quando elas são definidas; portanto, quando o modelo é de probabilidade máxima e quando você está interessado apenas no desempenho do modelo em dados de treinamento. No caso de recolher alguns dados em algum tipo de consenso, eles estão perfeitamente bem.
No caso de criar uma máquina de previsão para algum problema do mundo real, o primeiro é falso, já que o seu conjunto de treinamento representa apenas um pedaço de informação sobre o problema com o qual você está lidando, portanto, você não pode otimizar seu modelo; o segundo é falso, porque você espera que seu modelo manipule os novos dados para os quais você nem pode esperar que o conjunto de treinamento seja representativo. E, para esse fim, o CV foi inventado; para simular o comportamento do modelo quando confrontado com dados independentes. No caso de seleção de modelo, o CV fornece não apenas a qualidade aproximada, mas também a distribuição aproximada da qualidade, por isso tem essa grande vantagem de poder dizer "Não sei, sejam quais forem os novos dados, qualquer um deles pode ser Melhor."

Scortchi
fonte
Isso significa que, para determinados tamanhos de amostra, o BIC pode ser menos rigoroso que o AIC?
22410 russellpierce
11
Rigoroso não é a melhor palavra aqui, é mais tolerante com parâmetros; ainda sim, para as definições comuns (com log natural) isso acontece para 7 ou menos objetos.
AIC é assintoticamente equivalente à validação cruzada.
Rob Hyndman
5
@mbq - Não vejo como a validação cruzada supera o problema da "falta de representatividade". Se seus dados de treinamento não forem representativos dos dados que você receberá no futuro, você poderá validar cruzadamente tudo o que desejar, mas não representará o "erro de generalização" que você realmente enfrentará (como "o true "novos dados não são representados pela parte não modelada dos dados de treinamento). É essencial obter um conjunto de dados representativo para fazer boas previsões.
probabilityislogic
11
@mbq - o que quero dizer é que você parece "rejeitar gentilmente" a seleção baseada em IC com base em uma alternativa que não resolve o problema. A validação cruzada é boa (embora a computação valha a pena?), Mas dados não representativos não podem ser tratados usando um processo orientado a dados. Pelo menos não de forma confiável. Você precisa ter informações prévias que lhe digam como não são representativas (ou, mais geralmente, que conexões lógicas os dados "não representativos" têm com os dados futuros reais que você observará).
probabilityislogic
5

Como você mencionou, AIC e BIC são métodos para penalizar modelos por terem mais variáveis ​​regressivas. Uma função de penalidade é usada nesses métodos, que é uma função do número de parâmetros no modelo.

  • Ao aplicar o AIC, a função de penalidade é z (p) = 2 p .

  • Ao aplicar o BIC, a função de penalidade é z (p) = p ln ( n ), que se baseia na interpretação da penalidade como decorrente de informações anteriores (daí o nome Critério de Informação Bayesiano).

Quando n é grande, os dois modelos produzirão resultados bastante diferentes. Em seguida, o BIC aplica uma penalidade muito maior a modelos complexos e, portanto, leva a modelos mais simples que o AIC. No entanto, conforme declarado na Wikipedia na BIC :

deve-se notar que em muitas aplicações ..., o BIC simplesmente se reduz à seleção de máxima probabilidade, porque o número de parâmetros é igual para os modelos de interesse.

Amanda
fonte
4
observe que o AIC também é equivalente ao ML quando a dimensão não muda. Sua resposta faz parecer que isso é apenas para a BIC.
probabilityislogic
5

Pelo que sei, não há muita diferença entre AIC e BIC. Ambas são aproximações matematicamente convenientes que se pode fazer para comparar modelos com eficiência. Se eles fornecerem modelos "melhores" diferentes, provavelmente significa que você tem alta incerteza, o que é mais importante para se preocupar do que se você deve usar o AIC ou o BIC. Pessoalmente, gosto mais da BIC porque ela pede mais (menos) de um modelo se tiver mais (menos) dados para ajustar seus parâmetros - como um professor pedindo um padrão de desempenho mais alto (mais baixo) se o aluno tiver mais (menos) ) tempo para aprender sobre o assunto. Para mim, isso parece ser a coisa mais intuitiva a se fazer. Mas tenho certeza de que também existem argumentos igualmente intuitivos e convincentes para a AIC, dada sua forma simples.

Agora, sempre que você fizer uma aproximação, certamente haverá algumas condições quando essas aproximações forem lixo. Isso pode ser visto certamente para a AIC, onde existem muitos "ajustes" (AICc) para dar conta de certas condições que tornam a aproximação original ruim. Isso também está presente para o BIC, porque existem vários outros métodos mais exatos (mas ainda eficientes), como Aproximações de Fully Laplace para misturas de g-priors de Zellner (BIC é uma aproximação ao método de aproximação de Laplace para integrais).

Um lugar em que ambos são uma porcaria é quando você tem informações prévias substanciais sobre os parâmetros em qualquer modelo. AIC e BIC penalizam desnecessariamente modelos onde os parâmetros são parcialmente conhecidos em comparação com modelos que exigem que os parâmetros sejam estimados a partir dos dados.

P(D|M,A)P(M|D,A)MMA

Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best

E, em seguida, continuando a atribuir os mesmos modelos de probabilidade (mesmos parâmetros, mesmos dados, mesmas aproximações etc.), receberei o mesmo conjunto de valores BIC. Somente anexando algum tipo de significado único à letra lógica "M" é que se atrai perguntas irrelevantes sobre o "modelo verdadeiro" (ecos da "religião verdadeira"). A única coisa que "define" M são as equações matemáticas que a utilizam em seus cálculos - e isso quase nunca define uma e apenas uma definição. Eu poderia igualmente fazer uma proposição de previsão sobre M ("o i-ésimo modelo fornecerá as melhores previsões"). Pessoalmente, não consigo ver como isso mudaria as probabilidades e, portanto, quão bom ou ruim o BIC será (o AIC também) - embora o AIC seja baseado em uma derivação diferente)

E, além disso, o que está errado com a declaração Se o verdadeiro modelo está no conjunto Estou pensando, então há uma probabilidade de 57% que é o modelo B . Parece bastante razoável para mim, ou você pode ir para a versão mais "suave", há uma probabilidade de 57% de que o modelo B é o melhor do conjunto considerado

Um último comentário: acho que você encontrará tantas opiniões sobre a AIC / BIC quanto pessoas que as conhecem.

probabilityislogic
fonte
4

AIC raramente deve ser usado, pois é realmente apenas válido assintoticamente. É quase sempre melhor usar AICc (AIC com um c orrecção para tamanho de amostra finita). AIC tende a super parametrizar: esse problema é bastante reduzido com o AICc. A principal exceção ao uso do AICc é quando as distribuições subjacentes são fortemente leptokurtic. Para mais informações, consulte o livro Seleção de modelo de Burnham & Anderson.

user2875
fonte
11
Então, o que você está dizendo é que o AIC não pune suficientemente os modelos por parâmetros, portanto, usá-lo como critério pode levar à superparametrização. Você recomenda o uso do AICc. Para colocar isso de volta no contexto da minha pergunta inicial, uma vez que o BIC já é mais rigoroso que o AIC, existe um motivo para usar o AICc sobre o BIC?
russellpierce
11
O que você quer dizer com AIC é válido assintoticamente. Conforme apontado por John Taylor, a AIC é inconsistente. Eu acho que seus coomments contrastando AIC com BIC são os melhores dados. Não vejo os dois iguais à validação cruzada. Todos eles têm uma propriedade agradável que normalmente atingem o pico em um modelo com menos do que o número máximo de variáveis. Mas todos eles podem escolher modelos diferentes.
Michael Chernick
4

AIC e BIC são critérios de informação para comparar modelos. Cada um tenta equilibrar o ajuste e a parcimônia do modelo e cada um penaliza de maneira diferente pelo número de parâmetros.

AIC=2k2ln(L)
kL2ln(L)2k

BIC=kln(n)2ln(L)

Eu não ouvi falar do KIC.

Peter Flom
fonte
também não ouviu falar do KIC, mas, para o AIC e o BIC, dê uma olhada na pergunta vinculada ou pesquise o AIC. stats.stackexchange.com/q/577/442
Henrik
11
(Esta resposta foi mesclada de uma pergunta duplicada que também solicitou a interpretação de "KIC".)
whuber
3
Os modelos não precisam ser aninhados para serem comparados com o AIC ou o BIC.
Macro
1

Muito brevemente:

  • n
  • P(D|M,A)(D=Data,M=model,A=assumptions)P(M|D,A)nnk=n[11/(log(n)1)]n=tamanho da amostra (Shao 1997). Existem muitas versões diferentes do BIC, que se resumem a fazer aproximações diferentes da probabilidade marginal ou assumir diferentes anteriores. Por exemplo, em vez de usar um uniforme anterior de todos os modelos possíveis, como no BIC original, o EBIC usa um uniforme anterior de modelos de tamanho fixo ( Chen & Chen 2008 ), enquanto o BICq usa uma distribuição de Bernouilli especificando a probabilidade anterior de cada parâmetro a ser incluído .

lambda=2lambda=log(n), em que a otimização de um objetivo (LASSO ou regressão líquida elástica) é seguida pelo ajuste do (s) parâmetro (s) de regularização com base em algum outro objetivo (que, por exemplo, minimiza o erro de previsão de validação cruzada, AIC ou BIC).

n1n

Observe que o erro LOOCV também pode ser calculado analiticamente a partir dos resíduos e da diagonal da matriz hat , sem ter que realmente executar nenhuma validação cruzada. Isso sempre seria uma alternativa à AIC como uma aproximação assintótica do erro LOOCV.

Referências

Stone M. (1977) Uma equivalência assintótica da escolha do modelo por validação cruzada e critério de Akaike. Jornal da Sociedade Real de Estatística Série B. 39, 44–7.

Shao J. (1997) Uma teoria assintótica para seleção linear de modelos. Statistica Sinica 7, 221-242.

Tom Wenseleers
fonte