Sei que executar o ajuste de hiperparâmetros fora da validação cruzada pode levar a estimativas enviesadas de validade externa, porque o conjunto de dados que você usa para medir o desempenho é o mesmo usado para ajustar os recursos.
O que eu quero saber é o quão ruim é esse problema . Eu posso entender como seria muito ruim para a seleção de recursos, pois isso oferece um grande número de parâmetros para ajustar. Mas e se você estiver usando algo como LASSO (que possui apenas um parâmetro, a força da regularização) ou uma floresta aleatória sem seleção de recurso (que pode ter alguns parâmetros, mas nada tão dramático quanto adicionar / soltar recursos de ruído)?
Nesses cenários, quão otimista você poderia esperar que sua estimativa de erro de treinamento fosse?
Eu apreciaria qualquer informação sobre isso - estudos de caso, documentos, anedotas, etc. Obrigado!
EDIT: Para esclarecer, eu estou não falar de estimar o desempenho do modelo em dados de treinamento (ou seja, não usar validação cruzada em tudo). Por "ajuste do hiperparâmetro fora da validação cruzada", quero dizer o uso da validação cruzada apenas para estimar o desempenho de cada modelo individual, mas não incluindo um segundo loop externo de validação cruzada para corrigir a sobreajuste no procedimento de ajuste do hiperparâmetro (distinto de sobreajuste durante o procedimento de treinamento). Veja, por exemplo, a resposta aqui .
fonte
Qualquer algoritmo de aprendizado complexo, como SVM, redes neurais, floresta aleatória, ... pode atingir 100% de precisão do treinamento se você permitir (por exemplo, com fraca / nenhuma regularização), com um desempenho de generalização absolutamente horrível como resultado.
Em resumo, você pode facilmente terminar com um classificador perfeito em seu conjunto de treinamento que aprendeu absolutamente nada de útil em um conjunto de teste independente. É assim que é ruim.
fonte