Um critério de informação que considera quantas variáveis ​​podemos escolher

7

Estou executando um modelo de regressão múltipla e procurando usar o AIC e o BIC para selecionar modelos. No entanto, percebo que ambas as medidas não consideram o número de variáveis ​​que podemos escolher, mas consideram apenas o número de variáveis ​​escolhidas. Se eu tenho muitas variáveis ​​para escolher, é provável que encontre algo altamente correlacionado com o que estou tentando modelar, apenas por sorte. Existe uma medida que considere quantas variáveis ​​podemos escolher?

user133586
fonte

Respostas:

6

Acho que a validação cruzada simples é a melhor opção.

Tanto o AIC quanto o BIC consideram o equilíbrio entre a complexidade do modelo e a quantidade de informações disponíveis. Com mais dados, modelos mais complexos podem ser aprendidos. No entanto, esse saldo é fixo e não se baseia nos dados.

A validação cruzada é baseada nos dados. Também equilibra a complexidade do modelo com a quantidade de informações disponíveis. Com mais dados, modelos mais complexos podem ser aprendidos. O desempenho em dados não vistos quantifica o quão bem o modelo funciona. Implicitamente, os modelos que são complexos demais (sobreajuste) são penalizados porque fazem previsões ruins.

No caso de muitas variáveis, as altamente correlacionadas podem ser escolhidas durante o treinamento. Durante o teste, no entanto, torna-se aparente que as relações aprendidas não generalizam para dados invisíveis.

Outra vantagem da validação cruzada é que você pode escolher sua própria medida de desempenho.

Pieter
fonte
2
(+1) Mas é importante enfatizar que, se a validação cruzada for usada para seleção de modelo, um loop externo será necessário para avaliar razoavelmente o desempenho preditivo. Consulte Treinamento com o conjunto de dados completo após validação cruzada? , Seleção de características e de validação cruzada e validação cruzada Nested para selecção do modelo .
Scortchi - Restabelece Monica