A validação cruzada repetida deve ser usada para avaliar modelos preditivos?

16

Me deparei com este artigo de 2012 de Gitte Vanwinckelen e Hendrik Blockeel questionando a utilidade da validação cruzada repetida, que se tornou uma técnica popular para reduzir a variação da validação cruzada.

Os autores demonstraram que, embora a validação cruzada repetida diminua a variação das previsões do modelo, uma vez que o mesmo conjunto de dados de amostra está sendo amostrado novamente, a média das estimativas de validação cruzada amostradas converge para uma estimativa tendenciosa da verdadeira precisão preditiva e, portanto, não é útil.

A validação cruzada repetida deve ser usada apesar dessas limitações?

RobertF
fonte
6
Na minha experiência, a validação cruzada (repetida ou não) não fornece uma estimativa muito boa da precisão preditiva. Mas é muito útil para comparar o desempenho preditivo de diferentes modelos. É uma boa maneira de escolher entre modelos, mas não é uma boa maneira de estimar o desempenho de um único modelo.
Solhador
@ Flounderer Esse é um bom ponto. Minha interpretação do artigo é que não podemos fazer comparações significativas de modelos com base na validação cruzada repetida versus validação cruzada não repetida. Você está tentando extrair uma quantidade razoável de informações dos dados. Ou isso está incorreto?
RobertF

Respostas:

11

O argumento que o jornal parece estar fazendo parece estranho para mim.

De acordo com o artigo, o objetivo do CV é estimar , o desempenho preditivo esperado do modelo em novos dados, dado que o modelo foi treinado no conjunto de dados S observado . Ao realizarmos k CV fold, obtém-se uma estimativa Um deste número. Por causa do particionamento aleatória de S em k dobras, isto é uma variável aleatória Um ~ f ( A ) com média μ k e variância σ 2 K . Em contraste, o CV n -vezes repetido produz uma estimativa com a mesma médiaα2SkA^SkA^f(A)μkσk2n mas variância menor σ 2 k / n .μkσk2/n

Obviamente, . Esse viés é algo que temos que aceitar.α2μk

No entanto, o erro esperado será maior para o menor n , e será a maior para n = 1 , pelo menos, com base em hipóteses sobre razoáveis f ( A ) , por exemplo, quando um ˙ ~ N ( μ k , σ 2 k / n ) . Em outras palavras, o CV repetido permite obter uma estimativa mais precisa de μ kE[|α2A^|2]nn=1f(A)A^˙N(μk,σk2/n)μke isso é bom porque fornece uma estimativa mais precisa de .α2

Portanto, o CV repetido é estritamente mais preciso que o CV não repetido.

Os autores não discutem com isso! Em vez disso, afirmam, com base nas simulações, que

reduzir a variância [repetindo CV] não é, em muitos casos, muito útil e, essencialmente, um desperdício de recursos computacionais.

Isso apenas significa que em suas simulações foi bem baixo; e, de fato, o tamanho de amostra mais baixo que eles usaram foi 200 , o que provavelmente é grande o suficiente para produzir pequenos σ 2 k . (A diferença nas estimativas obtidas com CV não repetido e CV com repetição de 30 vezes é sempre pequena.) Com tamanhos de amostra menores, pode-se esperar uma variação maior entre repetições.σk2200σk2

CAVEAT: Intervalos de confiança!

Outro ponto que os autores estão fazendo é que

o relato de intervalos de confiança [em repetidas validações cruzadas] é enganoso.

Parece que eles estão se referindo a intervalos de confiança para a média nas repetições de CV. Concordo plenamente que isso é uma coisa sem sentido a relatar! Quanto mais vezes o CV for repetido, menor será o IC, mas ninguém está interessado no IC em torno da nossa estimativa de ! Preocupamo-nos com o IC em torno da nossa estimativa de α 2 .μkα2

Os autores também relatam ICs para o CV não repetido, e não está totalmente claro para mim como esses ICs foram construídos. Acho que esses são os ICs para as médias nas dobras. Eu argumentaria que esses ICs também são praticamente sem sentido!k

Veja um de seus exemplos: a precisão do adultconjunto de dados com o algoritmo NB e o tamanho da amostra de 200. Eles obtêm 78,0% com CV não repetido, IC (72,26, 83,74), 79,0% (77,21, 80,79) com CV repetido 10 vezes e 79,1% (78,07, 80,13) com CV repetido 30 vezes. Todos esses ICs são inúteis, incluindo o primeiro. A melhor estimativa de é 79,1%. Isso corresponde a 158 sucessos em 200. Isso gera um intervalo de confiança binomial de 95% de (72,8, 84,5) - mais amplo ainda que o primeiro relatado. Se eu quis relatar algum IC, este é o que eu denunciaria.μk

CAVEAT MAIS GERAL: variação do CV.

Você escreveu esse CV repetido

tornou-se uma técnica popular para reduzir a variação da validação cruzada.

Deve-se deixar bem claro o que se quer dizer com "variação" do CV. CV repetido reduz a variância da estimativa de . Observe que, no caso de CV de corte único (LOOCV), quando k = N , essa variação é igual a zero. No entanto, é comum dizer-se que o LOOCV tem, na verdade, a maior variação de todos os CV possíveis com dobra k . Veja, por exemplo, aqui: Variância e viés na validação cruzada: por que o CV de exclusão única tem uma variação maior?μkk=Nk

Por que é que? Isto é porque LOOCV tem a maior variância como uma estimativa de que é o desempenho preditivo esperado do modelo em novos dados quando construído sobre um novo conjunto de dados com o mesmo tamanho como S . Esta é uma questão completamente diferente.α1S

ameba diz Restabelecer Monica
fonte
1
Espero que o @cbeleites perceba esse tópico e comente aqui ou deixe sua própria resposta: eu sei que ela está (ou estava) usando muito o CV repetido e acho que defendeu a computação da variabilidade em relação às repetições como uma medida da estabilidade do modelo. Mas não acho que ela calcule um IC em vez de repetições.
ameba diz Restabelecer Monica
1
Obrigado pela explicação clara do artigo. Então, para resumir sua posição, quando você estado "Em outras palavras, CV repetida permite obter uma estimativa mais precisa de e é uma coisa boa porque dá uma estimativa mais precisa de α 2 " você apoiar o uso de CV repetido como um meio para comparar com modelos de medidas mais precisas da μ k (mesmo que não seja uma medida mais precisa da α 2 ). Ignore os ICs do CV e concentre-se na comparação da média de µ k s para diferentes modelos. μkα2μkα2μk
RobertF
1
@RobertF: Eu estava falando (seguindo o artigo da V&B) sobre estimar o desempenho do modelo. Minha tese é que o CV repetido é mais preciso que o não repetido, e acho que é indubitável (a V&R argumenta que a diferença na precisão tende a não ser tão importante na prática). Comparar dois modelos é muito mais complicado, porque digamos que você execute o CV e obtenha 70% para um modelo e 71% para outro modelo. É uma diferença "significativa"? Bem, esse é um problema complicado, sem uma resposta definitiva. E é independente da questão repetida / não repetida.
Ameba diz Reinstate Monica
Alimento para o pensamento: appliedpredictivemodeling.com/blog/2014/11/27/...
shadowtalker
1
Bom trabalho. Recompensa concedida. Eu acho que eu iria resumir a moral da história como: validação cruzada repetida só pode ser esperado para ser útil quando é pequeno, o que é mais provável para amostras relativamente pequenas. A questão de quão bem a validação cruzada estima erro de teste usando o conjunto de dados de treinamento fornecido , versus erro de teste esperado usando um conjunto de dados de treinamento aleatório do mesmo tamanho, é discutida na seção 7.12 do livro de Hastie, Tibshirani e Friedman (2009). Hastie et al. concluir que é melhor neste último. σk
Kodiologist