Na entrada da Wikipedia para o critério de informação Akaike , lemos em Comparação com BIC (critério de informação bayesiano) que
... AIC / AICc tem vantagens teóricas sobre BIC ... AIC / AICc é derivado de princípios de informação; O BIC não é ... O BIC tem um prioritário de 1 / R (onde R é o número de modelos candidatos), o que não é "sensível" ... O AICc tende a ter vantagens práticas / de desempenho em relação ao BIC ... O AIC é assintoticamente ideal ... O BIC não é assintoticamente ideal ... a taxa na qual o AIC converge para o ideal é ... o melhor possível.
Na seção de discussão da AIC , existem vários comentários sobre a apresentação tendenciosa da comparação com a seção da BIC. Um colaborador frustrado protestou que o artigo inteiro "parece um comercial de cigarros".
Em outras fontes, por exemplo, no apêndice desta tese, o teor das reivindicações da AIC parece mais realista. Assim, como um serviço à comunidade, perguntamos:
P: Existem circunstâncias em que o BIC é útil e o AIC não?
Não faz sentido perguntar se a AIC é melhor que a BIC. Embora esses dois critérios diferentes de seleção de modelos pareçam superficialmente semelhantes, cada um deles foi projetado para resolver problemas fundamentalmente diferentes. Portanto, você deve escolher o critério de seleção de modelo adequado ao problema que você possui.
AIC é uma fórmula que estima o valor esperado duas vezes mais do que a probabilidade negativa de log de dados de teste usando um modelo de probabilidade especificado corretamente cujos parâmetros foram obtidos ajustando o modelo aos dados de treinamento. Ou seja, a AIC estima o erro de validação cruzada esperado usando um erro de probabilidade de log negativo. Ou seja, Onde são dados de teste, é estimado usando dados de treinamento e denota o operador de expectativa em relação ao processo de geração de dados iid que gerou os dados de treinamento e teste.AIC≈E{−2log∏ni=1p(xi|θ^n)} x1,…,xn θ^n E{}
O BIC, por outro lado, não foi projetado para estimar erros de validação cruzada. O BIC estima o dobro do logaritmo negativo da probabilidade dos dados observados, conforme o modelo. Essa probabilidade também é chamada de probabilidade marginal em que é calculada pela integração da função de probabilidade ponderada por um parâmetro anterior sobre o espaço do parâmetro. Ou seja, .p(θ) BIC≈−2log∫[∏ni=1p(xi|θ)]p(θ)dθ
fonte