Depois de ler "Explain or to Predict" (2010), de Galit Shmueli, fico intrigado com uma aparente contradição. Existem três premissas,
- Escolha do modelo com base no AIC versus no BIC (final da p. 300 - início da p. 301): basta colocar o AIC para selecionar um modelo destinado à previsão, enquanto o BIC deve ser usado para selecionar um modelo para explicação . Além disso (não no artigo acima), sabemos que, sob algumas condições, o BIC seleciona o verdadeiro modelo entre o conjunto de modelos candidatos; o verdadeiro modelo é o que buscamos na modelagem explicativa (final da p. 293).
- Aritmética simples: o AIC selecionará um modelo maior que o BIC para amostras de tamanho 8 ou maior (satisfazendo devido às diferentes penalidades de complexidade no AIC versus o BIC).
- O modelo "verdadeiro" (ou seja, o modelo com os regressores corretos e a forma funcional correta, mas com coeficientes imperfeitamente estimados) pode não ser o melhor modelo de previsão (p. 307): um modelo de regressão com um preditor ausente pode ser um melhor modelo de previsão - a introdução de viés devido ao preditor ausente pode ser superada pela redução da variância devido à imprecisão da estimativa.
Os pontos 1. e 2. sugerem que modelos maiores podem ser melhores para previsão do que modelos mais parcimoniosos. Enquanto isso, o ponto 3. dá um exemplo oposto, em que um modelo mais parcimonioso é melhor para previsão do que um modelo maior. Eu acho isso intrigante.
Questões:
- Como pode a aparente contradição entre os pontos {1. e 2.} e 3. ser explicados / resolvidos?
- À luz do ponto 3., você poderia dar uma explicação intuitiva sobre por que e como um modelo maior selecionado pela AIC é realmente melhor para previsão do que um modelo mais parcimonioso selecionado pela BIC?
forecasting
model-selection
feature-selection
aic
bic
Richard Hardy
fonte
fonte
Respostas:
Eles não devem ser tomados no mesmo contexto; os pontos 1 e 2 têm contextos diferentes. Tanto para o AIC quanto para o BIC, primeiro se explora qual combinação de parâmetros em que número produz os melhores índices (alguns autores têm ajustes epiléticos quando eu uso o índice de palavrasneste contexto. Ignore-os ou procure o índice no dicionário.) No ponto 2, AIC é o modelo mais rico, em que mais rico significa selecionar modelos com mais parâmetros, apenas algumas vezes, porque frequentemente o modelo AIC ideal é o mesmo número de parâmetros que o BIC. seleção. Ou seja, se o AIC e o BIC selecionam modelos com o mesmo número de parâmetros, a alegação é de que o AIC será melhor para previsão do que o BIC. No entanto, o oposto pode ocorrer se o BIC atingir o limite máximo com um modelo de menos parâmetros selecionado (mas sem garantias). Sober (2002) concluiu que o AIC mede a precisão preditiva, enquanto o BIC mede a qualidade do ajuste, onde a precisão preditiva pode significar prever y fora da faixa de valores extremos de x. Quando estiver fora, frequentemente, um AIC menos ideal, com queda de parâmetros preditivos fracos, melhor prediz valores extrapolados do que um índice ideal de mais parâmetros no modelo selecionado. Observo de passagem que AIC e ML não evitam a necessidade de teste de erro de extrapolação, que é um teste separado para modelos. Isso pode ser feito retendo valores extremos do conjunto "treinamento" e calculando o erro entre o modelo extrapolado "pós-treinamento" e os dados retidos.
Agora, o BIC é supostamente um menor preditor de erro dos valores y dentro dos valores extremos do intervalo de x . A qualidade aprimorada do ajuste geralmente tem o preço do viés da regressão (para extrapolação), em que o erro é reduzido pela introdução desse viés. Isso, por exemplo, geralmente achatará a inclinação para dividir o sinal da média esquerda versos à direitaf( x ) - y resíduos (pense em mais resíduos negativos de um lado e mais positivos no outro), reduzindo assim o erro total. Portanto, neste caso, estamos solicitando o melhor valor de y, dado um valor x, e para o AIC, solicitamos mais de perto uma melhor relação funcional entre x e y. Uma diferença entre elas é, por exemplo, que o BIC, com outras opções de parâmetros iguais, terá um melhor coeficiente de correlação entre o modelo e os dados, e o AIC terá um erro de extrapolação melhor medido como erro de valor y para um determinado valor x extrapolado.
O ponto 3 é uma declaração algumas vezes sob algumas condições
quando os dados são muito barulhentos ( grande );σ
quando os valores absolutos verdadeiros dos parâmetros deixados de fora (no nossoβ2
exemplo ) são pequenos;
quando os preditores estão altamente correlacionados; e
quando o tamanho da amostra é pequeno ou o intervalo de variáveis deixadas de fora é pequeno.
Na prática, uma forma correta de uma equação não significa que a adaptação a ela produzirá os valores corretos dos parâmetros por causa do ruído, e quanto mais ruído, melhor. O mesmo acontece com R versus R ajustado e com alta colinearidade. Ou seja, algumas vezes, quando um parâmetro é adicionado, o R ajustado é degradado enquanto o R melhora. 2 2 22 2 2 2
Gostaria de salientar que essas afirmações são otimistas. Normalmente, os modelos estão errados e, geralmente, um modelo melhor reforça uma norma que não pode ser usada com o AIC ou o BIC, ou a estrutura residual incorreta é assumida para sua aplicação e são necessárias medidas alternativas. No meu trabalho, este é sempre o caso.
fonte