Esta pergunta é um acompanhamento ou tentativa de esclarecer uma possível confusão sobre um tópico que eu e muitos outros consideramos um pouco difícil, com relação à diferença entre AIC e BIC. Em uma resposta muito agradável de @Dave Kellen sobre este tópico ( /stats//a/767/30589 ), lemos:
Sua pergunta implica que a AIC e a BIC tentem responder à mesma pergunta, o que não é verdade. A AIC tenta selecionar o modelo que melhor descreve uma realidade desconhecida e de alta dimensão. Isso significa que a realidade nunca está no conjunto de modelos candidatos que estão sendo considerados. Pelo contrário, o BIC tenta encontrar o modelo TRUE entre o conjunto de candidatos. Acho bastante estranho a suposição de que a realidade é instanciada em um dos modelos que os pesquisadores construíram ao longo do caminho. Este é um problema real para a BIC.
Em um comentário abaixo, por @ gui11aume, lemos:
(-1) Ótima explicação, mas eu gostaria de contestar uma afirmação. @ Dave Kellen Você poderia, por favor, dar uma referência a onde está a idéia de que o modelo TRUE deve estar no cenário para a BIC? Eu gostaria de investigar isso, pois neste livro os autores dão uma prova convincente de que esse não é o caso. O que você precisa saber é o seguinte:
Parece que essa afirmação vem do próprio Schwarz (1978), embora a afirmação não fosse necessária: pelos mesmos autores (como @ gui11aume aponta para), lemos em seu artigo "Inferência multimodelo: entendendo AIC e BIC na seleção de modelos" ( Burnham e Anderson, 2004):
A derivação do BIC pressupõe a existência de um modelo verdadeiro ou, mais estritamente, o modelo verdadeiro é assumido como estando no conjunto de modelos ao usar o BIC? (A derivação de Schwarz especificou essas condições.) ... A resposta ... não. Ou seja, o BIC (como base para uma aproximação a uma determinada integral bayesiana) pode ser derivado sem assumir que o modelo subjacente à derivação seja verdadeiro (ver, por exemplo, Cavanaugh e Neath 1999; Burnham e Anderson 2002: 293-5). Certamente, ao aplicar o BIC, o conjunto de modelos não precisa conter o modelo verdadeiro (inexistente) que representa a realidade completa. Além disso, a convergência em probabilidade do modelo selecionado pelo BIC para um modelo targbet (sob a idealização de uma amostra de iid) não significa logicamente que esse modelo de destino deve ser a verdadeira distribuição geradora de dados.
Então, acho que vale a pena uma discussão ou algum esclarecimento (se for necessário mais) sobre esse assunto. No momento, tudo o que temos é um comentário de @ gui11aume (obrigado!) Sob uma resposta muito votada sobre a diferença entre AIC e BIC.
fonte
Respostas:
O Critério de Informação de Schwarz (1978) foi elaborado com o recurso de escolher assintoticamente o modelo com maiores probabilidades posteriores, ou seja, o modelo com maior probabilidade, dados os dados em iguais anteriores. Então, aproximadamente onde denota "assintoticamente equivalente" é a parte posterior do modelo dados os dados . Não vejo como esse resultado dependeria da verdade do modelo 1 (existe mesmo um modelo verdadeiro em uma estrutura bayesiana?).
O que eu acho que é responsável pela confusão é que o SIC tem outro recurso interessante que, sob certas condições, selecionará assintoticamente o modelo "verdadeiro" se o último estiver dentro do universo do modelo. Tanto AIC quanto SIC são casos especiais do critério que é a probabilidade do log das estimativas de parâmetros , é o número de parâmetros e é o tamanho da amostra. Quando o universo do modelo consiste em modelos gaussianos lineares, pode-se mostrar que precisamos:
fonte