Tirando as considerações sobre o poder da computação, existem razões para acreditar que o aumento do número de dobras na validação cruzada leva a uma melhor seleção / validação de modelo (ou seja, quanto maior o número de dobras, melhor)?
Levando o argumento ao extremo, a validação cruzada de exclusão única leva necessariamente a modelos melhores do que a validação cruzada de fold?
Alguns antecedentes sobre esta questão: estou trabalhando em um problema com muito poucas instâncias (por exemplo, 10 pontos positivos e 10 negativos), e tenho medo de que meus modelos não sejam generalizados / super-adequados com tão poucos dados.
cross-validation
bias-variance-tradeoff
Amelio Vazquez-Reina
fonte
fonte
Respostas:
A validação cruzada de exclusão única geralmente não leva a um desempenho melhor que o K-fold e é mais provável que seja pior , pois apresenta uma variação relativamente alta (ou seja, seu valor muda mais para amostras diferentes de dados do que o valor para validação cruzada k-fold). Isso é ruim em um critério de seleção de modelo, pois significa que o critério de seleção de modelo pode ser otimizado de maneiras que apenas exploram a variação aleatória na amostra específica de dados, em vez de fazer melhorias genuínas no desempenho, ou seja, é mais provável que você ajuste demais o critério de seleção do modelo. A razão pela qual a validação cruzada de exclusão única é usada na prática é que, para muitos modelos, ela pode ser avaliada com muito baixo custo como um subproduto da adaptação do modelo.
Se a despesa computacional não for primariamente um problema, uma abordagem melhor é executar a validação cruzada repetida em dobras k, em que o procedimento de validação cruzada em dobras k é repetido com diferentes partições aleatórias em k subconjuntos disjuntos de cada vez. Isso reduz a variação.
Se você tiver apenas 20 padrões, é muito provável que você experimente exagerar no critério de seleção de modelos, que é uma armadilha muito negligenciada em estatística e aprendizado de máquina (plug descarado: veja meu artigo sobre o assunto). Pode ser melhor escolher um modelo relativamente simples e tentar não otimizá-lo de forma muito agressiva, ou adotar uma abordagem bayesiana e calcular a média de todas as opções de modelos, ponderada por sua plausibilidade. A otimização do IMHO é a raiz de todo mal nas estatísticas, por isso é melhor não otimizar se não for necessário e otimizar com cautela sempre que o fizer.
Observe também que, se você for executar a seleção de modelo, precisará usar algo como validação cruzada aninhada, se também precisar de uma estimativa de desempenho (ou seja, você deve considerar a seleção de modelo como parte integrante do procedimento de ajuste de modelo e validar cruzadamente) também).
fonte
Escolhendo o número K dobra considerando a curva de aprendizado
Eu gostaria de argumentar que a escolha do número apropriado de dobras depende muito da forma e posição da curva de aprendizado, principalmente devido ao seu impacto no viés . Esse argumento, que se estende ao CV não incluído, é amplamente retirado do livro "Elements of Statistical Learning", capítulo 7.10, página 243.K
Para discussões sobre o impacto de na variação, veja aquiK
Uma visualização intuitiva usando um exemplo de brinquedo
Para entender esse argumento visualmente, considere o seguinte exemplo de brinquedo em que estamos ajustando um polinômio de grau 4 a uma curva senoidal ruidosa:
Intuitivamente e visualmente, esperamos que este modelo seja mal para pequenos conjuntos de dados devido ao sobreajuste. Esse comportamento é refletido na curva de aprendizado em que plotamos Erro médio quadrático versus tamanho do treinamento, juntamente com o desvio padrão 1. Observe que eu escolhi plotar 1 - MSE aqui para reproduzir a ilustração usada na ESL página 243±1− ±
Discutindo o argumento
O desempenho do modelo melhora significativamente à medida que o tamanho do treinamento aumenta para 50 observações. Aumentar o número para 200, por exemplo, traz apenas pequenos benefícios. Considere os dois casos a seguir:
Se nosso conjunto de treinamento tivesse 200 observações, a validação cruzada de vezes estimaria o desempenho em um tamanho de treinamento de 160 que é praticamente o mesmo que o desempenho para o tamanho de conjunto de treinamento 200. Portanto, a validação cruzada não sofrerá muito viés e aumentará para valores maiores não trarão muitos benefícios ( gráfico à esquerda )K5 K
No entanto, se o conjunto de treinamento tivesse observações, a validação cruzada de vezes estimaria o desempenho do modelo em relação aos conjuntos de treinamento do tamanho 40 e, a partir da curva de aprendizado, isso levaria a um resultado tendencioso. Portanto, aumentar neste caso tenderá a reduzir o viés. ( gráfico à direita ).5 K50 5 K
[Update] - Comentários sobre a metodologia
Você pode encontrar o código para esta simulação aqui . A abordagem foi a seguinte:
Uma abordagem alternativa é não reanalisar um novo conjunto de dados a cada iteração e, em vez disso, reorganizar o mesmo conjunto de dados a cada vez. Isso parece dar resultados semelhantes.
fonte