Entendo o conceito de validação cruzada com dobras k , mas não entendo o que significa "dobra". Citando a partir da página vinculada na wikipedia:
O processo de validação cruzada é repetido k vezes (as dobras)
Isso parece muito vago. A 'dobra' se refere a cada repetição do processo? Ou é um substantivo que se refere ao conjunto de dados de teste de treinamento emparelhado?
Respostas:
A redação é definitivamente estranha lá.
Lembre-se de que a validação cruzada particiona um conjunto de dados em "sub-conjuntos de dados" aproximadamente iguais. Cada um desses "subconjuntos de dados" é chamado de "dobra". validação cruzada fold requer a reajuste de um modelo vezes, omitindo exatamente uma dobra dos dados de cada vez, para que o termo "dobra" também possa ser usado para se referir a cada repetição.K K K
Como existe uma correspondência individual entre dobras e repetições, geralmente não há um problema com essa terminologia negligente. Geralmente, é evidente a partir do contexto em que uso se destina, e outras vezes não faz diferença.
fonte
"Dobra" refere-se a uma partição (no significado teórico da palavra) da amostra,S , em um conjunto de treinamento, Tj e conjunto de validação, Vj . Isso significa:
(1 ≤ j ≤ k )
Observe que em "clássico"k validação cruzada (CV), uma condição adicional é colocada nos conjuntos de validação:
Por fim, observe que ok no clássico k -volume CV controla o número de vezes que o procedimento de validação de trem é executado, bem como o tamanho dos conjuntos de validação e treinamento: |Vj|≊1k|S| , portanto.|Tj|≊k−1k|S|
fonte
Concordo com o OP de que essa terminologia é estranha e confusa. Aqui está minha opinião: falantes nativos de inglês com boa educação estão acostumados a termos como "duplo" ou "triplo", que soam um pouco antiquados, mas ainda são utilizáveis. Criticamente, no entanto, não vemos essas palavras como contendo o substantivo "fold"; "fold" é mais um sufixo aqui, uma construção especial engraçada que é combinada com um número para criar uma variante colorida em "double" ou "triple", etc. Não tem absolutamente nada a ver com o verbo "fold" ou o substantivo "dobra" que pode surgir ao fazer origami e se referir a um pedaço de papel dobrado.
Eu suspeito que a palavra "fold" começou a ser usada como um substantivo que significa "partição" no contexto da validação cruzada k-fold quando um falante / escritor não familiarizado com o inglês ou com a validação cruzada pensou que "k-fold" literalmente significava "fazer k 'dobras' dos dados". É compreensível que alguém chegue a essa conclusão. No entanto, "k-fold" não significa "fazer k 'dobras'" - em vez disso, significa " fazer validação cruzada k vezes ", onde estão implícitos os detalhes de ter que fazer k também partições dos dados.
Pessoalmente, nunca uso "fold" dessa maneira estranha; Eu chamo os segmentos de dados em questão de "partições", e é muito mais claro.
Além disso, o fato de esse uso ter se espalhado pela comunidade não o torna um uso razoável em inglês, IMO. Prefiro uma comunicação direta e clara a inventar e usar um novo jargão confuso.
fonte