Eu tenho uma pergunta específica sobre validação na pesquisa de aprendizado de máquina.
Como sabemos, o regime de aprendizado de máquina solicita que os pesquisadores treinem seus modelos nos dados de treinamento, escolha modelos candidatos por conjunto de validação e relate a precisão no conjunto de testes. Em um estudo muito rigoroso, o conjunto de testes pode ser usado apenas uma vez. No entanto, nunca pode ser o cenário de pesquisa, porque precisamos melhorar nosso desempenho até que a precisão do teste seja melhor do que os resultados mais avançados antes que possamos publicar (ou mesmo enviar) um artigo.
Agora vem o problema. Digamos que 50% é o resultado mais avançado, e meu modelo geralmente consegue uma precisão de 50 a 51, o que é melhor em média.
No entanto, minha melhor precisão de validação (52%) produz uma precisão de teste muito baixa, por exemplo, 49%. Então, tenho que relatar 49% como meu desempenho geral se não puder melhorar ainda mais a validação, o que acho que não tem esperança. Isso realmente me impede de estudar o problema, mas isso não importa para meus colegas, porque eles não veem os 52% de acentos, o que eu acho que é um erro.
Então, como as pessoas costumam fazer em suas pesquisas?
A validação do ps k fold não ajuda em nada, porque a mesma situação ainda pode acontecer.
seed
para dar conta da reprodutibilidade. Eu suspeito que o seu procedimento CV tenha alguma randomização que, quando repetida, pode retornar resultados ligeiramente diferentes (mas isso é apenas um palpite). Eu realmente sugiro que você explore alguns outros modelos ou transformação de dados para tentar melhorar seu desempenho.