Embora os resultados do conjunto de testes privado não possam ser usados para refinar ainda mais o modelo, a seleção de modelos não está sendo executada em um grande número de modelos com base nos resultados do conjunto de testes privados? Por esse processo, você não acabaria se adaptando ao conjunto de testes particulares?
De acordo com "Pseudo-Matemática e Charlatanismo Financeiro: Os Efeitos do Backtest Overfitting no Desempenho Fora da Amostra" por Bailey et.al. é relativamente fácil "superajustar" ao selecionar o melhor de um grande número de modelos avaliados no mesmo conjunto de dados. Isso não está acontecendo com a tabela de classificação privada do Kaggle?
- Quais são as justificativas estatísticas para os modelos com melhor desempenho na tabela de classificação privada, sendo os modelos que generalizam os melhores para dados fora da amostra?
- As empresas acabam realmente usando os modelos vencedores ou a tabela de classificação privada existe apenas para fornecer as "regras do jogo", e as empresas estão realmente mais interessadas na percepção que surge da discussão do problema?
Respostas:
Bem, os pontos que você apresenta são justos, no entanto, acho que há um problema muito mais real com as pessoas que se encaixam no ranking público .
Isso pode acontecer quando você faz mais ou menos 100 envios, o conjunto de testes públicos acabará sangrando para sua seleção de hiperparâmetro e, portanto, superajustado. Eu acho que a classificação privada é necessária a esse respeito.
fonte