Me deparei com este artigo de 2012 de Gitte Vanwinckelen e Hendrik Blockeel questionando a utilidade da validação cruzada repetida, que se tornou uma técnica popular para reduzir a variação da validação cruzada.
Os autores demonstraram que, embora a validação cruzada repetida diminua a variação das previsões do modelo, uma vez que o mesmo conjunto de dados de amostra está sendo amostrado novamente, a média das estimativas de validação cruzada amostradas converge para uma estimativa tendenciosa da verdadeira precisão preditiva e, portanto, não é útil.
A validação cruzada repetida deve ser usada apesar dessas limitações?
cross-validation
RobertF
fonte
fonte
Respostas:
O argumento que o jornal parece estar fazendo parece estranho para mim.
De acordo com o artigo, o objetivo do CV é estimar , o desempenho preditivo esperado do modelo em novos dados, dado que o modelo foi treinado no conjunto de dados S observado . Ao realizarmos k CV fold, obtém-se uma estimativa Um deste número. Por causa do particionamento aleatória de S em k dobras, isto é uma variável aleatória Um ~ f ( A ) com média μ k e variância σ 2 K . Em contraste, o CV n -vezes repetido produz uma estimativa com a mesma médiaα2 S k A^ S k A^∼f(A) μk σ2k n mas variância menor σ 2 k / n .μk σ2k/n
Obviamente, . Esse viés é algo que temos que aceitar.α2≠μk
No entanto, o erro esperado será maior para o menor n , e será a maior para n = 1 , pelo menos, com base em hipóteses sobre razoáveis f ( A ) , por exemplo, quando um ˙ ~ N ( μ k , σ 2 k / n ) . Em outras palavras, o CV repetido permite obter uma estimativa mais precisa de μ kE[|α2−A^|2] n n=1 f(A) A^∼˙N(μk,σ2k/n) μk e isso é bom porque fornece uma estimativa mais precisa de .α2
Portanto, o CV repetido é estritamente mais preciso que o CV não repetido.
Os autores não discutem com isso! Em vez disso, afirmam, com base nas simulações, que
Isso apenas significa que em suas simulações foi bem baixo; e, de fato, o tamanho de amostra mais baixo que eles usaram foi 200 , o que provavelmente é grande o suficiente para produzir pequenos σ 2 k . (A diferença nas estimativas obtidas com CV não repetido e CV com repetição de 30 vezes é sempre pequena.) Com tamanhos de amostra menores, pode-se esperar uma variação maior entre repetições.σ2k 200 σ2k
CAVEAT: Intervalos de confiança!
Outro ponto que os autores estão fazendo é que
Parece que eles estão se referindo a intervalos de confiança para a média nas repetições de CV. Concordo plenamente que isso é uma coisa sem sentido a relatar! Quanto mais vezes o CV for repetido, menor será o IC, mas ninguém está interessado no IC em torno da nossa estimativa de ! Preocupamo-nos com o IC em torno da nossa estimativa de α 2 .μk α2
Os autores também relatam ICs para o CV não repetido, e não está totalmente claro para mim como esses ICs foram construídos. Acho que esses são os ICs para as médias nas dobras. Eu argumentaria que esses ICs também são praticamente sem sentido!k
Veja um de seus exemplos: a precisão doμk
adult
conjunto de dados com o algoritmo NB e o tamanho da amostra de 200. Eles obtêm 78,0% com CV não repetido, IC (72,26, 83,74), 79,0% (77,21, 80,79) com CV repetido 10 vezes e 79,1% (78,07, 80,13) com CV repetido 30 vezes. Todos esses ICs são inúteis, incluindo o primeiro. A melhor estimativa de é 79,1%. Isso corresponde a 158 sucessos em 200. Isso gera um intervalo de confiança binomial de 95% de (72,8, 84,5) - mais amplo ainda que o primeiro relatado. Se eu quis relatar algum IC, este é o que eu denunciaria.CAVEAT MAIS GERAL: variação do CV.
Você escreveu esse CV repetido
Deve-se deixar bem claro o que se quer dizer com "variação" do CV. CV repetido reduz a variância da estimativa de . Observe que, no caso de CV de corte único (LOOCV), quando k = N , essa variação é igual a zero. No entanto, é comum dizer-se que o LOOCV tem, na verdade, a maior variação de todos os CV possíveis com dobra k . Veja, por exemplo, aqui: Variância e viés na validação cruzada: por que o CV de exclusão única tem uma variação maior?μk k = N k
Por que é que? Isto é porque LOOCV tem a maior variância como uma estimativa de que é o desempenho preditivo esperado do modelo em novos dados quando construído sobre um novo conjunto de dados com o mesmo tamanho como S . Esta é uma questão completamente diferente.α1 S
fonte