Por que a eliminação para trás é justificada ao fazer regressão múltipla?

9

Isso não resulta em excesso de ajuste? Meus resultados seriam mais confiáveis ​​se eu adicionasse um procedimento de canivete ou bootstrap como parte da análise?

sim
fonte
8
Quem disse que é justificado? Obviamente, isso deve levar ao excesso de ajustes.
gung - Restabelece Monica
2
Na verdade, é sugerido em muitos livros (ainda?), Por exemplo, amazon.com/Statistics-Explained-Introductory-Guide-Scientists/… . Eu estive pensando o mesmo problema. Eu acho que tenho pelo menos 3-4 livros de estatística que não discutem a questão do excesso de ajustes, ao introduzir a regressão múltipla.
mmh 25/05
5
Honestamente, se um livro de estatística introdutória não discuta sobre adequação e excesso de testes, eu leria um livro diferente.
Matthew Drury
3
A eliminação para trás (e seleção para frente) ainda tende a se ajustar demais se a validação cruzada de exclusão única (por exemplo, PRESS) for usada como critério de seleção de recurso.
Dikran Marsupial
5
@mmh não é muito introdutório, mas eu recomendo a leitura do capítulo 4 das Estratégias de modelagem de regressão de Frank Harrell (bem, não é apenas o capítulo 4 que vale a pena ler, mas essa parte é especialmente relevante para esta discussão).
Glen_b -Reinstala Monica

Respostas:

2

Eu acho que construir um modelo e testá-lo são coisas diferentes. A eliminação para trás faz parte da construção do modelo. Jack knife e bootstrap são mais usados ​​para testá-lo.

Certamente, é possível ter estimativas mais confiáveis ​​com o bootstrap e o jack knife do que com a simples eliminação para trás. Mas se você realmente deseja testar o overfitting, o teste final é uma amostra dividida, treinamento em alguns, testes em outros. Deixar um fora é muito instável / não é confiável para esse fim: http://www.russpoldrack.org/2012/12/the-perils-of-leave-one-out.html

Acho que pelo menos 10% dos sujeitos precisam sair para obter estimativas mais estáveis ​​de robustez do modelo. E se você tem 20 assuntos, 2 assuntos ainda são muito poucos. Mas então a questão passa a ser se você tem uma amostra grande o suficiente para construir um modelo que possa ser aplicado ao restante da população.

Espero que tenha respondido sua pergunta, pelo menos em parte.

Dorian P
fonte
Então, pode-se usar validação cruzada com (ou )? k<nk<<n
mmh 27/05
An Introduction to Statistical Aprendizagem discute diferentes abordagens para a reamostragem (conjuntos de validação, a validação cruzada com diferentes números de grupos, bootstrapping) em Capítulo 5, e a selecção do modelo no Capítulo 6.
EDM