Com a validação cruzada k-fold, você calcula a média de todos os

A mira de $k$ validação cruzada em duplicado não é produzir um modelo; é comparar modelos.

Os resultados de um experimento de validação cruzada podem indicar que o Support Vector Machines supera o Naive Bayes em seus dados ou que os hiper parâmetros do classificador devem ser definidos como c para esse conjunto de dados específico. Armado com esse conhecimento, você treina um classificador de "produção" com TODOS os dados disponíveis e aplica-o ao seu problema.

Em muitos casos, ainda não está claro como você calcula a média de vários modelos. Por exemplo, qual é a média de três árvores de decisão ou classificadores de vizinhos mais próximos?

É importante ter em mente que os resultados da validação cruzada são estimativas, não garantias, e essas estimativas são mais válidas se o classificador de produção for treinado com uma qualidade (e quantidade) similar de dados. Houve bastante trabalho no desenvolvimento de maneiras de usar essas estimativas para realizar inferência; isto é, de maneira estatisticamente sólida, esse método A é geralmente superior ao método B nesses dados.

Matt Krause
fonte

Qual é uma boa referência sobre o uso de estimativas de validação cruzada k-fold para inferência? Eu adoraria ler isso se você tiver uma boa parte.

Tentaclenorm

Um local decente para começar pode ser iro.umontreal.ca/~lisa/bib/pub_subject/finance/pointeurs/…, mas existem várias abordagens diferentes.

Matt Krause

mais uma coisa a esclarecer: quando treinamos o classificador de "produção" usando todos os dados, como entendemos quando parar?

Anton

Com a validação cruzada k-fold, você calcula a média de todos os

Respostas: