Suponha que eu tenha treinado vários modelos no conjunto de treinamento, escolha o melhor usando o conjunto de validação cruzada e o desempenho medido no conjunto de teste. Então agora eu tenho um melhor modelo final. Devo treiná-lo novamente em todos os dados disponíveis ou enviar soluções treinadas apenas no conjunto de treinamento? Se for o último, então por quê?
ATUALIZAÇÃO: Como observou P.Windridge, enviar um modelo reciclado significa basicamente enviar um modelo sem validação. Mas podemos relatar o desempenho do conjunto de testes e, depois disso, treinar novamente o modelo com dados completos, esperando justamente que o desempenho seja melhor - porque usamos o melhor modelo e mais dados. Que problemas podem surgir dessa metodologia?
Respostas:
Você quase sempre obterá um modelo melhor após a montagem em toda a amostra. Mas, como outros disseram, você não tem validação. Essa é uma falha fundamental na abordagem de divisão de dados. Os dados não apenas dividem uma oportunidade perdida de modelar diretamente as diferenças de amostra em um modelo geral, mas também são instáveis, a menos que toda a amostra seja talvez maior que 15.000 indivíduos. É por isso que são necessárias 100 repetições de validação cruzada de 10 vezes (dependendo do tamanho da amostra) para obter precisão e estabilidade e por que o bootstrap para validação interna forte é ainda melhor. O bootstrap também expõe o quão difícil e arbitrária é a tarefa de seleção de recursos.
Descrevi os problemas com a validação 'externa' em mais detalhes em Bioestatística na Seção 10.11 da Pesquisa Biomédica .
fonte
Você não precisa treinar novamente. Ao relatar seus resultados, você sempre relata os resultados dos dados de teste, porque eles oferecem uma compreensão muito melhor. Por conjunto de dados de teste, podemos ver com mais precisão o desempenho de um modelo em dados fora da amostra.
fonte