Recentemente, me deparei com um artigo que propõe o uso de um classificador k-NN em um conjunto de dados específico. Os autores usaram todas as amostras de dados disponíveis para realizar a validação cruzada de dobras k para diferentes valores de k e relatam os resultados da validação cruzada da melhor configuração de hiperparâmetro.
Que eu saiba, esse resultado é tendencioso e eles deveriam ter mantido um conjunto de testes separado para obter uma estimativa de precisão em amostras não usadas para executar a otimização do hiperparâmetro.
Estou certo? Você pode fornecer algumas referências (preferencialmente trabalhos de pesquisa) que descrevam esse uso indevido da validação cruzada?
cross-validation
references
model-selection
model-evaluation
Daniel López
fonte
fonte
Respostas:
Sim, há problemas ao relatar apenas resultados de CV com dobra em k. Você poderia usar, por exemplo, as três publicações a seguir para seu objetivo (embora haja mais por aí, é claro) para apontar as pessoas na direção certa:
Varma e Simon (2006). "Viés na estimativa de erro ao usar a validação cruzada para seleção de modelo." BMC Bioinformatics , 7: 91
Cawley e Talbot (2010). "Sobre-ajuste na seleção de modelo e viés de seleção subsequente na avaliação de desempenho". Journal of Machine Learning Research , 11: 2079-2107
Eu pessoalmente gosto disso porque eles tentam explicar as questões mais em inglês simples do que em matemática.
fonte