Eu recomendo dar uma olhada em "7.10.2 A maneira errada e correta de realizar a validação cruzada" em http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf .
Os autores dão um exemplo no qual alguém faz o seguinte:
- Rastreie os preditores: encontre um subconjunto de "bons" preditores que mostrem correlação bastante forte (univariada) com os rótulos das classes
- Usando apenas esse subconjunto de preditores, construa um classificador multivariado.
- Use a validação cruzada para estimar os parâmetros de ajuste desconhecidos e para estimar o erro de previsão do modelo final
Isso soa muito semelhante a executar a EDA em todos (ou seja, treinamento mais teste) dos seus dados e usar a EDA para selecionar preditores "bons".
Os autores explicam por que isso é problemático: a taxa de erro validada cruzada será artificialmente baixa, o que pode induzir você a pensar que encontrou um bom modelo.
A aplicação do EDA nos dados de teste está incorreta.
Treinamento é o processo de procurar as respostas corretas para criar o melhor modelo. Esse processo não se limita apenas à execução de código nos dados de treinamento. O uso de informações da EDA para decidir qual modelo usar, ajustar parâmetros e assim por diante faz parte do processo de treinamento e, portanto, não deve ser permitido o acesso aos dados de teste. Para ser fiel a si mesmo, use os dados de teste apenas para verificar o desempenho do seu modelo.
Além disso, se você perceber que o modelo não apresenta um bom desempenho durante o teste e voltar a ajustar o modelo, isso também não será bom. Em vez disso, divida seus dados de treinamento em dois. Use um para treinamento e outro para testar e ajustar seus modelos. Consulte Qual é a diferença entre o conjunto de testes e o conjunto de validação?
fonte
Após o parágrafo desta resposta . Hastie explica ainda a p.245 :
fonte
Você faz EDA em todo o conjunto de dados. Por exemplo, se você estiver usando a validação cruzada de exclusão única , como faria a EDA apenas em um conjunto de dados de treinamento ? Nesse caso, todas as observações são treinadas e realizadas pelo menos uma vez.
Portanto, não, você entende seus dados em toda a amostra. Se você está na indústria, é ainda mais evidente. Espera-se que você mostre as tendências e a descrição geral dos dados para as partes interessadas na empresa e faça isso em toda a amostra.
fonte