Validação cruzada 10 vezes versus validação cruzada de exclusão única

Estou fazendo validação cruzada aninhada. Li que a validação cruzada de exclusão única pode ser tendenciosa (não lembro o porquê).

É melhor usar a validação cruzada 10 vezes ou a validação cruzada de exclusão única, além do tempo de execução mais longo para a validação cruzada de exclusão única?

machine-learning cross-validation maquinaria
fonte

Você se lembra de onde leu isso?

Richard Hardy

Você já viu este post sobre preconceitos? Além disso, esta resposta tem uma citação de um livro muito bom que recomenda a validação cruzada de 5 ou 10 vezes.

Eric Farng

Este post está um pouco relacionado.

Richard Hardy

Obrigado. Então, apesar de tudo, pode-se dizer que eu deveria usar um currículo de 10 vezes em vez de deixar de lado um currículo? Isso também vale para um pequeno conjunto de dados?

máquinas

@ Thomas, quando seu conjunto de dados fica muito pequeno, você acaba fazendo LOO-CV, de modo que os benefícios do CV de 10 vezes diminuem à medida que o tamanho do conjunto de dados diminui.

precisa saber é o seguinte

Respostas:

Apenas para adicionar um pouco à resposta de @SubravetiSuraj (+1)

A validação cruzada fornece uma estimativa de desempenho pessimista e enviesada, porque a maioria dos modelos estatísticos melhorará se o conjunto de treinamento for maior. Isso significa que a validação cruzada k-fold estima o desempenho de um modelo treinado em um conjunto de dados 100 * (k-1) / k% dos dados disponíveis, em vez de em 100% deles. Portanto, se você executar a validação cruzada para estimar o desempenho e usar um modelo treinado em todos os dados para uso operacional, ele terá um desempenho um pouco melhor do que o sugerido pela estimativa de validação cruzada.

A validação cruzada de exclusão única é aproximadamente imparcial , porque a diferença de tamanho entre o conjunto de treinamento usado em cada dobra e o conjunto de dados inteiro é apenas um padrão único. Há um artigo sobre isso de Luntz e Brailovsky (em russo).

Luntz, Aleksandr e Viktor Brailovsky. "Na estimativa de caracteres obtidos no procedimento estatístico de reconhecimento." Technicheskaya Kibernetica 3.6 (1969): 6-12.

Veja também

Estimativa das taxas de erro na análise discriminante Peter A. Lachenbruch e M. Ray Mickey Technometrics vol. 10, Iss. 1,1968

No entanto, embora a validação cruzada de exclusão única seja aproximadamente imparcial, ela tende a ter uma alta variação (portanto, você obteria estimativas muito diferentes se repetisse a estimativa com diferentes amostras iniciais de dados da mesma distribuição). Como o erro do estimador é uma combinação de desvio e variação, se a validação cruzada de exclusão é melhor que a validação cruzada de 10 vezes depende de ambas as quantidades.

Agora, a variação no ajuste do modelo tende a ser maior se for ajustada a um pequeno conjunto de dados (pois é mais sensível a qualquer artefato de ruído / amostragem na amostra de treinamento específica usada). Isso significa que a validação cruzada de 10 vezes provavelmente terá uma alta variação (além de um viés mais alto) se você tiver apenas uma quantidade limitada de dados, pois o tamanho do conjunto de treinamento será menor que o do LOOCV. Portanto, a validação cruzada k-fold também pode ter problemas de variação, mas por um motivo diferente. É por isso que LOOCV geralmente é melhor quando o tamanho do conjunto de dados é pequeno.

No entanto, na minha opinião, o principal motivo para usar LOOCV é computacionalmente barato para alguns modelos (como regressão linear, a maioria dos métodos de kernel, classificadores de vizinhos mais próximos etc.) e, a menos que o conjunto de dados seja muito pequeno, eu usaria Validação cruzada de 10 vezes, se couber no meu orçamento computacional, ou melhor ainda, na estimativa e na bagagem de inicialização.

Dikran Marsupial
fonte

+1 para a obscura referência russa de 1969! Você tem uma boa referência para LOOCV com alta variação? Isto é afirmado em Hastie et al., Mas não tenho certeza de que estou 100% convencido pelo argumento e não vi demonstrações empíricas (simulações).

Ameba diz Restabelecer Monica

sim, acho que não concordo com isso, pois assume que o modelo é estável sob as perturbações causadas pela exclusão das amostras de teste, o que provavelmente se aproximará da verdade se você tiver um conjunto de dados muito grande (ou seja, é apenas assintoticamente verdadeiro, mas se você tivesse muitos dados, quase qualquer esquema sensato de avaliação de desempenho forneceria o mesmo resultado).

Dikran Marsupial

+1 (tanto a postagem quanto o comentário mais recente - ótimo artigo, mas não deve ser cego seguido (como qualquer outro artigo)).

usεr11852 diz Reinstate Monic

@Dikran Este tópico (do LOOCV com a maior variação) surgiu novamente em uma pergunta separada e bastante interessante: stats.stackexchange.com/questions/280665 , você pode dar uma olhada.

Ameba diz Reinstate Monica

k

$k$

Na minha opinião, deixar uma validação cruzada de fora é melhor quando você tem um pequeno conjunto de dados de treinamento. Nesse caso, não é possível fazer dez dobras para fazer previsões sobre o uso dos demais dados para treinar o modelo.

Por outro lado, se você tiver uma grande quantidade de dados de treinamento, a validação cruzada de 10 vezes seria uma aposta melhor, porque haverá muitas iterações para deixar uma validação cruzada de fora e, considerando esses muitos resultados para ajustar seus hiperparâmetros, talvez Não seja uma boa ideia.

De acordo com a ISL, sempre há uma troca de desvio-desvio entre validação cruzada de deixar um fora e k fold. No LOOCV (deixe um CV de fora), você obtém estimativas de erro de teste com menor viés e maior variação porque cada conjunto de treinamento contém exemplos n-1, o que significa que você está usando quase todo o conjunto de treinamento em cada iteração. Isso também leva a uma variação mais alta, porque há muita sobreposição entre os conjuntos de treinamento e, portanto, as estimativas de erro de teste são altamente correlacionadas, o que significa que o valor médio da estimativa de erro de teste terá uma variação maior.

O oposto é verdadeiro no CV k-fold, porque há relativamente menos sobreposição entre os conjuntos de treinamento, portanto, as estimativas de erro de teste são menos correlacionadas, como resultado do qual o valor médio do erro de teste não terá tanta variação quanto o LOOCV.

Subraveti Suraj
fonte