Se eu tiver dados e executar uma classificação (digamos floresta aleatória nesses dados) com validação cruzada (digamos 5 vezes), posso concluir que não há ajuste excessivo no meu método?
fonte
Se eu tiver dados e executar uma classificação (digamos floresta aleatória nesses dados) com validação cruzada (digamos 5 vezes), posso concluir que não há ajuste excessivo no meu método?
De modo nenhum. No entanto, a validação cruzada ajuda a avaliar o quanto o seu método se ajusta.
Por exemplo, se seus dados de treinamento no quadrado R de uma regressão forem de 0,50 e o quadrado R com validação cruzada for de 0,48, você dificilmente terá superajustes e se sentirá bem. Por outro lado, se o quadrado R com validação cruzada é de apenas 0,3 aqui, uma parte considerável do desempenho do seu modelo ocorre devido ao ajuste excessivo e não a relacionamentos verdadeiros. Nesse caso, você pode aceitar um desempenho mais baixo ou tentar diferentes estratégias de modelagem com menos adaptação.
A validação cruzada é uma técnica boa, mas não perfeita, para minimizar o ajuste excessivo.
A validação cruzada não terá bom desempenho com dados externos se os dados que você possui não forem representativos dos dados que você estará tentando prever!
Aqui estão duas situações concretas em que a validação cruzada apresenta falhas:
fonte
Também posso recomendar esses vídeos do curso de Stanford em aprendizado estatístico. Esses vídeos são bastante detalhados sobre como usar a avaliação cruzada de forma eficaz.
Validação cruzada e o Bootstrap (14:01)
Validação cruzada dobra K (13:33)
Validação cruzada: as maneiras certas e erradas (10:07)
fonte