Eu entendo alguns dos muitos problemas da regressão gradual. No entanto, como empreendimento acadêmico, suponha que eu queira usar a regressão gradual para um modelo preditivo, e quero entender melhor os impactos que isso pode ter no desempenho.
Dado um modelo linear, por exemplo, a execução de regressão gradual no modelo tende a aumentar ou diminuir o poder preditivo do modelo quando apresentado com novos dados?
Existem impactos teóricos que a regressão gradual terá na capacidade preditiva?
A experiência prática também seria útil; talvez situações em que a regressão gradual aprimore a previsão e quando não.
Respostas:
Existem vários problemas com a seleção gradual. Eu discuti passo a passo na minha resposta aqui: Algoritmos para seleção automática de modelo . Nessa resposta, não me concentrei principalmente nos problemas com inferência, mas no fato de que os coeficientes são tendenciosos (os atletas que testam são análogos às variáveis). Como os coeficientes são desviados de seus valores reais, o erro preditivo fora da amostra deve ser aumentado, ceteris paribus.
Considere a noção de compensação de desvio e desvio . Se você pensa na precisão do seu modelo como a variação dos erros de previsão (ou seja, MSE: ), o erro de previsão esperado é a soma de três fontes diferentes de variação :1 / n ∑ ( yEu- y^Eu)2
Com essas idéias em mente, o ponto da minha resposta ligada no topo é que uma grande quantidade de preconceito é induzida. Todas as coisas são iguais, o que tornará as previsões da amostra piores. Infelizmente, a seleção gradual não reduz a variação da estimativa. Na melhor das hipóteses, sua variância é a mesma, mas é provável que a variância seja muito pior (por exemplo, o @Glen_b relata que apenas 15,5% das vezes foram as variáveis certas, mesmo escolhidas em um estudo de simulação discutido aqui: por que Valores-p enganosos após executar uma seleção gradual? ).
fonte
Os efeitos exatos dependerão do modelo e da "verdade" que, é claro, não podemos saber. Você pode observar os efeitos do stepwise em qualquer caso específico, com a validação cruzada ou usando uma abordagem simples de treinamento e teste.
fonte