A BIC tenta encontrar um modelo verdadeiro?

17

Esta pergunta é um acompanhamento ou tentativa de esclarecer uma possível confusão sobre um tópico que eu e muitos outros consideramos um pouco difícil, com relação à diferença entre AIC e BIC. Em uma resposta muito agradável de @Dave Kellen sobre este tópico ( /stats//a/767/30589 ), lemos:

Sua pergunta implica que a AIC e a BIC tentem responder à mesma pergunta, o que não é verdade. A AIC tenta selecionar o modelo que melhor descreve uma realidade desconhecida e de alta dimensão. Isso significa que a realidade nunca está no conjunto de modelos candidatos que estão sendo considerados. Pelo contrário, o BIC tenta encontrar o modelo TRUE entre o conjunto de candidatos. Acho bastante estranho a suposição de que a realidade é instanciada em um dos modelos que os pesquisadores construíram ao longo do caminho. Este é um problema real para a BIC.

Em um comentário abaixo, por @ gui11aume, lemos:

(-1) Ótima explicação, mas eu gostaria de contestar uma afirmação. @ Dave Kellen Você poderia, por favor, dar uma referência a onde está a idéia de que o modelo TRUE deve estar no cenário para a BIC? Eu gostaria de investigar isso, pois neste livro os autores dão uma prova convincente de que esse não é o caso. O que você precisa saber é o seguinte:

Parece que essa afirmação vem do próprio Schwarz (1978), embora a afirmação não fosse necessária: pelos mesmos autores (como @ gui11aume aponta para), lemos em seu artigo "Inferência multimodelo: entendendo AIC e BIC na seleção de modelos" ( Burnham e Anderson, 2004):

A derivação do BIC pressupõe a existência de um modelo verdadeiro ou, mais estritamente, o modelo verdadeiro é assumido como estando no conjunto de modelos ao usar o BIC? (A derivação de Schwarz especificou essas condições.) ... A resposta ... não. Ou seja, o BIC (como base para uma aproximação a uma determinada integral bayesiana) pode ser derivado sem assumir que o modelo subjacente à derivação seja verdadeiro (ver, por exemplo, Cavanaugh e Neath 1999; Burnham e Anderson 2002: 293-5). Certamente, ao aplicar o BIC, o conjunto de modelos não precisa conter o modelo verdadeiro (inexistente) que representa a realidade completa. Além disso, a convergência em probabilidade do modelo selecionado pelo BIC para um modelo targbet (sob a idealização de uma amostra de iid) não significa logicamente que esse modelo de destino deve ser a verdadeira distribuição geradora de dados.

Então, acho que vale a pena uma discussão ou algum esclarecimento (se for necessário mais) sobre esse assunto. No momento, tudo o que temos é um comentário de @ gui11aume (obrigado!) Sob uma resposta muito votada sobre a diferença entre AIC e BIC.

Erosennin
fonte
1
Para focar melhor a questão, talvez o AIC possa ser removido do título, pois, se eu entendi corretamente, essa pergunta é sobre se o modelo verdadeiro precisa estar no conjunto de candidatos ao usar o BIC.
Juho Kokkala
@JuhoKokkala: Eu concordo.
Erosennin
4
Para mim, a conclusão é que, na maioria das aplicações práticas, a BIC resulta em underfitting e a AIC avalia mais corretamente o desempenho provável do modelo em novos dados não disponíveis. Mas, se você usa o AIC ou o BIC, se estiver selecionando dentre, por exemplo, três modelos / conjuntos de recursos concorrentes, o modelo resultante poderá superajustar. AIC e BIC funcionam melhor quando o número de modelos em potencial é baixo ou os modelos são conectados por um pequeno número de parâmetros (por exemplo, penalidades).
Frank Harrell
Obrigado @Erosennin por desenterrar a referência. Agora entendo de onde vem a idéia de que o modelo TRUE deve ser incluído.
precisa saber é o seguinte
@FrankHarrell: Você poderia explicar o que você quer dizer com "aplicações práticas"? Se eu entendo Burnham e Anderson corretamente, parece que o BIC resultará em desajustamento quando os dados forem escassos. Quando tivermos muitos dados, o BIC escolherá / procurará um modelo quase verdadeiro mais complexo que o AIC. AIC e BIC têm diferentes "modelos de destino". Eu adoraria uma elaboração do que você está dizendo, apenas para me apontar para algum artigo / livro.
Erosennin

Respostas:

11

O Critério de Informação de Schwarz (1978) foi elaborado com o recurso de escolher assintoticamente o modelo com maiores probabilidades posteriores, ou seja, o modelo com maior probabilidade, dados os dados em iguais anteriores. Então, aproximadamente onde denota "assintoticamente equivalente" é a parte posterior do modelo dados os dados . Não vejo como esse resultado dependeria da verdade do modelo 1 (existe mesmo um modelo verdadeiro em uma estrutura bayesiana?).

p(M1|y)p(M2|y)>1UMASEuC(M1)<SEuC(M2)
UMAp(Mj|y)jy

O que eu acho que é responsável pela confusão é que o SIC tem outro recurso interessante que, sob certas condições, selecionará assintoticamente o modelo "verdadeiro" se o último estiver dentro do universo do modelo. Tanto AIC quanto SIC são casos especiais do critério que é a probabilidade do log das estimativas de parâmetros , é o número de parâmetros e é o tamanho da amostra. Quando o universo do modelo consiste em modelos gaussianos lineares, pode-se mostrar que precisamos:

EuC(k)=-2Teu(θ^;y)+kg(T)
eu(θ^;y)θ^kT
g(T)0 0Como
para o CI não selecionar um modelo menor que o modelo verdadeiro com probabilidade um e para o IC não selecionar um modelo que seja maior que o modelo verdadeiro com probabilidade um. Temos que Portanto, o SIC preenche ambas as condições, enquanto o AIC preenche a primeira condição, mas não a segunda. Para uma exposição muito acessível desses recursos e uma discussão de implicações práticas, consulte o Capítulo 6 deste livro .
Tg(T)Como
gUMAEuC(T)=2T,gSEuC(T)=emTT

Elliott, G. e A. Timmermann (2016, abril). Previsão Econômica. Imprensa da Universidade de Princeton.

Schwarz, Gideon. "Estimando a dimensão de um modelo." The annals of statistics 6.2 (1978): 461-464.

Matthias Schmidtblaicher
fonte