Temos um conjunto de amostras biológicas bastante caras de obter. Colocamos essas amostras em uma série de testes para gerar dados usados para a construção de um modelo preditivo. Para esse fim, dividimos as amostras em conjuntos de treinamento (70%) e teste (30%). Criamos com sucesso um modelo e o aplicamos no conjunto de testes para descobrir que o desempenho estava "abaixo do ideal". Os experimentalistas agora querem melhorar os testes biológicos para criar um modelo melhor. Desde que não possamos obter novas amostras, você sugeriria que as amostras fossem embaralhadas novamente para criar novos conjuntos de treinamento e validação ou manter a divisão original. (Não temos nenhuma indicação de que a divisão tenha sido problemática).
9
Respostas:
Como você já usa uma amostra de validação, eu diria que você deve mantê-la e criar seus novos modelos na mesma amostra de treinamento, para que todos os modelos considerem os mesmos relacionamentos entre os recursos. Além disso, se você executar a seleção de recursos, as amostras deverão ser deixadas de fora antes de qualquer um desses estágios de filtragem; isto é, a seleção de recursos deve ser incluída no loop de validação cruzada.
É importante notar que existem métodos mais poderosos do que uma divisão de 0,67 / 0,33 para seleção de modelo, ou seja, validação cruzada com dobra k ou deixar de fora. Veja, por exemplo, The Elements of Statistical Learning (§7.10, pp. 241-248), www.modelselection.org ou Uma pesquisa de procedimentos de validação cruzada para seleção de modelos por Arlot e Celisse (é necessário um conhecimento matemático mais avançado).
fonte