Existem circunstâncias em que o BIC é útil e o AIC não?

8

Na entrada da Wikipedia para o critério de informação Akaike , lemos em Comparação com BIC (critério de informação bayesiano) que

... AIC / AICc tem vantagens teóricas sobre BIC ... AIC / AICc é derivado de princípios de informação; O BIC não é ... O BIC tem um prioritário de 1 / R (onde R é o número de modelos candidatos), o que não é "sensível" ... O AICc tende a ter vantagens práticas / de desempenho em relação ao BIC ... O AIC é assintoticamente ideal ... O BIC não é assintoticamente ideal ... a taxa na qual o AIC converge para o ideal é ... o melhor possível.

Na seção de discussão da AIC , existem vários comentários sobre a apresentação tendenciosa da comparação com a seção da BIC. Um colaborador frustrado protestou que o artigo inteiro "parece um comercial de cigarros".

Em outras fontes, por exemplo, no apêndice desta tese, o teor das reivindicações da AIC parece mais realista. Assim, como um serviço à comunidade, perguntamos:

P: Existem circunstâncias em que o BIC é útil e o AIC não?

Carl
fonte

Respostas:

4

De acordo com a Wikipedia, o AIC pode ser escrito da seguinte maneira: Como o BIC permite uma grande penalização para modelos complexos, há situações em que o AIC sugere que você deve selecionar um modelo que seja demasiado complexo, enquanto o BIC ainda é útil. O BIC pode ser escrito da seguinte forma: Portanto, a diferença é que o BIC penaliza pelo tamanho da amostra. Se você não deseja penalizar a amostra lá

2k2ln(L)
2ln(L)+kln(n)

Uma rápida explicação de Rob Hyndman pode ser encontrada aqui: Existe algum motivo para preferir o AIC ou o BIC do que o outro? Ele escreve:

  • AIC é melhor para previsão, pois é assintoticamente equivalente à validação cruzada.
  • O BIC é melhor para explicação, pois permite uma estimativa consistente do processo de geração de dados subjacente. **

Editar: Um exemplo pode ser encontrado na análise de séries temporais. Nos modelos VAR, o AIC (assim como sua versão corrigida, o AICc) geralmente leva a muitos atrasos. Portanto, deve-se observar principalmente o BIC ao escolher o número de defasagens de um VAR Modell. Para mais informações, você pode ler o capítulo 9.2 em Forecasting- Principles and Practice, de Rob J. Hyndman e George Athanasopoulos.

Ferdi
fonte
Você pode adicionar mais, por favor? Em particular, o BIC não pode ser usado para convergir para um anterior apropriado, dado seu post-hoc? Agradeço a resposta, obrigado. BTW, "muito" complexo não "2". O conceito estranhamente limitado, e não temporal, de "previsão" parece limitado a prever apenas no sentido de interpolação de valores de um intervalo quase idêntico de valores retidos. Normalmente, a palavra previsão se aplica à extrapolação além do intervalo de uma série temporal observada, que não é em que a validação cruzada ou a AIC são especialmente boas. Talvez o termo "interpolação prevista" deva ser usado.
Carl
O texto em negrito é uma citação individual de Rob Hyndman, que é um famoso professor de estatística da Austrália. Eu acho que por "previsão" ele quer dizer "inferência". Portanto, o AIC seria mais útil para estatísticas inferenciais, enquanto o BIC seria mais útil para estatísticas descritivas.
Ferdi
Sim, prolífico também. Ainda assim, o que estou pedindo é um bom exemplo do que a AIC não pode fazer que a BIC possa fazer.
Carl
1
@Ferdi, não, definitivamente "previsão" não significa "inferência" nessa publicação do blog. "Previsão" é "previsão" ou "previsão", onde você não se importa se o seu modelo está "correto" (em certo sentido), desde que faça uma boa previsão. Após esse post, parece que o BIC é o preferido por inferência.
Richard Hardy
Obrigado por sua resposta. A previsão ou previsão é "deduzida" dos dados observados em "dados não observados".
Ferdi
1

Não faz sentido perguntar se a AIC é melhor que a BIC. Embora esses dois critérios diferentes de seleção de modelos pareçam superficialmente semelhantes, cada um deles foi projetado para resolver problemas fundamentalmente diferentes. Portanto, você deve escolher o critério de seleção de modelo adequado ao problema que você possui.

AIC é uma fórmula que estima o valor esperado duas vezes mais do que a probabilidade negativa de log de dados de teste usando um modelo de probabilidade especificado corretamente cujos parâmetros foram obtidos ajustando o modelo aos dados de treinamento. Ou seja, a AIC estima o erro de validação cruzada esperado usando um erro de probabilidade de log negativo. Ou seja, Onde são dados de teste, é estimado usando dados de treinamento e denota o operador de expectativa em relação ao processo de geração de dados iid que gerou os dados de treinamento e teste.AICE{2logi=1np(xi|θ^n)}x1,,xnθ^nE{}

O BIC, por outro lado, não foi projetado para estimar erros de validação cruzada. O BIC estima o dobro do logaritmo negativo da probabilidade dos dados observados, conforme o modelo. Essa probabilidade também é chamada de probabilidade marginal em que é calculada pela integração da função de probabilidade ponderada por um parâmetro anterior sobre o espaço do parâmetro. Ou seja, .p(θ)BIC2log[i=1np(xi|θ)]p(θ)dθ

RMG
fonte
Alguns defensores da AIC contra a BIC estão tão apaixonados por suas opiniões que me lembram democratas versus republicanos nos EUA. A questão colocada é prática, pois esses campos armados costumam revisar artigos de periódicos científicos e, de fato, uma questão mais relevante é se a máxima probabilidade é apropriada de alguma forma nas circunstâncias em que tende a ser aplicada.
Carl
Entre (+1) por contribuir com a discussão. Gostaria de ver mais sobre se o AIC ou o BIC é aplicável quando eles tendem a ser usados, mas essa é, reconhecidamente, uma pergunta separada.
Carl