O modelo final (pronto para produção) deve ser treinado em dados completos ou apenas no conjunto de treinamento?

23

Suponha que eu tenha treinado vários modelos no conjunto de treinamento, escolha o melhor usando o conjunto de validação cruzada e o desempenho medido no conjunto de teste. Então agora eu tenho um melhor modelo final. Devo treiná-lo novamente em todos os dados disponíveis ou enviar soluções treinadas apenas no conjunto de treinamento? Se for o último, então por quê?

ATUALIZAÇÃO: Como observou P.Windridge, enviar um modelo reciclado significa basicamente enviar um modelo sem validação. Mas podemos relatar o desempenho do conjunto de testes e, depois disso, treinar novamente o modelo com dados completos, esperando justamente que o desempenho seja melhor - porque usamos o melhor modelo e mais dados. Que problemas podem surgir dessa metodologia?

Yurii
fonte
Você está trabalhando em um ambiente regulado externamente? (isto é, possivelmente, você deve enviar o modelo validado e seu questão é apenas hipotética, mas vale a pena discutir qualquer maneira :)). Edit: ok. Vejo que você editou sua postagem.
P.Windridge
Você acredita que seus dados de teste são representativos da população / cobrem uma parte da população que não está na amostra de desenvolvimento? Sua amostra de desenvolvimento original é deficiente de alguma forma?
P.Windridge
@ P.Windridge bem, minha pergunta é apenas hipotética. Sobre seu segundo comentário, acredito que ninguém deve esperar que um engenheiro treine um bom modelo, fornecendo dados não representativos.
Yurii 29/11
1
Não consigo imaginar muitas situações em que você enviaria um modelo sem validação. Prefiro diminuir o tamanho da amostra de teste (sujeita a que ainda seja grande o suficiente para validar!). Uma discussão possivelmente mais interessante é sobre os prós / contras de / seleção / do modelo com base em / todos / os dados e, em seguida, treiná-lo usando uma subamostra e validar o restante.
P.Windridge
1
Pergunta semelhante = stats.stackexchange.com/questions/174026/… , embora eu ache que poderia ser mais
útil

Respostas:

15

Você quase sempre obterá um modelo melhor após a montagem em toda a amostra. Mas, como outros disseram, você não tem validação. Essa é uma falha fundamental na abordagem de divisão de dados. Os dados não apenas dividem uma oportunidade perdida de modelar diretamente as diferenças de amostra em um modelo geral, mas também são instáveis, a menos que toda a amostra seja talvez maior que 15.000 indivíduos. É por isso que são necessárias 100 repetições de validação cruzada de 10 vezes (dependendo do tamanho da amostra) para obter precisão e estabilidade e por que o bootstrap para validação interna forte é ainda melhor. O bootstrap também expõe o quão difícil e arbitrária é a tarefa de seleção de recursos.

Descrevi os problemas com a validação 'externa' em mais detalhes em Bioestatística na Seção 10.11 da Pesquisa Biomédica .

Frank Harrell
fonte
A terminologia em meu campo (química analítica) consideraria qualquer divisão dos dados que você fizer antes de iniciar o treinamento uma validação interna . A validação externa começaria em algum lugar entre fazer um estudo de validação dedicado e testes em anel.
cbeleites apoia Monica em
0

Você não precisa treinar novamente. Ao relatar seus resultados, você sempre relata os resultados dos dados de teste, porque eles oferecem uma compreensão muito melhor. Por conjunto de dados de teste, podemos ver com mais precisão o desempenho de um modelo em dados fora da amostra.

Umar
fonte
4
Podemos relatar o desempenho do conjunto de testes e, depois disso, treinar novamente o modelo com dados completos, esperando que o desempenho seja melhor - porque usamos o modo melhor e mais dados. Existe uma falha no meu raciocínio?
Yurii 29/11
Bem, se após o teste, você coletar mais dados , poderá re-dividir os dados, treiná-los novamente, testá-los novamente e reportar o resultado do teste.
Umar
6
Ao não estimar em toda a amostra, você renuncia à oportunidade de maior eficiência. Isso não se justifica. Também concordo com o comentário de Yurii acima.
Richard Hardy
@RichardHardy, o que há de errado no meu comentário?
Umar
Está escrito em meu último comentário. Ao não utilizar todos os dados para estimar o modelo, você está perdendo a maior eficiência disponível. Por que fazer isso?
Richard Hardy