Devo embaralhar meus dados novamente?

9

Temos um conjunto de amostras biológicas bastante caras de obter. Colocamos essas amostras em uma série de testes para gerar dados usados ​​para a construção de um modelo preditivo. Para esse fim, dividimos as amostras em conjuntos de treinamento (70%) e teste (30%). Criamos com sucesso um modelo e o aplicamos no conjunto de testes para descobrir que o desempenho estava "abaixo do ideal". Os experimentalistas agora querem melhorar os testes biológicos para criar um modelo melhor. Desde que não possamos obter novas amostras, você sugeriria que as amostras fossem embaralhadas novamente para criar novos conjuntos de treinamento e validação ou manter a divisão original. (Não temos nenhuma indicação de que a divisão tenha sido problemática).

DavidDong
fonte
11
Como você dividiu os dados? Aleatoriamente, à mão, ou algum outro método? Embora, na verdade, a parte sobre "um modelo criado com sucesso" seja uma parte MUITO maior do problema. Antes de fazer coisas caras, você deve ver se está usando o tipo apropriado de modelo, se superestima seus dados de treinamento e se possui os dados apropriados para o que está tentando prever.
Wayne
BTW, eu esqueci de ligar o modo de cinismo diante do "sucesso criou um modelo"
Daviddong

Respostas:

12

Como você já usa uma amostra de validação, eu diria que você deve mantê-la e criar seus novos modelos na mesma amostra de treinamento, para que todos os modelos considerem os mesmos relacionamentos entre os recursos. Além disso, se você executar a seleção de recursos, as amostras deverão ser deixadas de fora antes de qualquer um desses estágios de filtragem; isto é, a seleção de recursos deve ser incluída no loop de validação cruzada.

É importante notar que existem métodos mais poderosos do que uma divisão de 0,67 / 0,33 para seleção de modelo, ou seja, validação cruzada com dobra k ou deixar de fora. Veja, por exemplo, The Elements of Statistical Learning (§7.10, pp. 241-248), www.modelselection.org ou Uma pesquisa de procedimentos de validação cruzada para seleção de modelos por Arlot e Celisse (é necessário um conhecimento matemático mais avançado).

chl
fonte