Costumo ver pessoas falando sobre validação cruzada 5x2 como um caso especial de validação cruzada aninhada .
Suponho que o primeiro número (aqui: 5) se refira ao número de dobras no loop interno e o segundo número (aqui: 2) se refira ao número de dobras no loop externo? Então, como isso difere de uma abordagem "tradicional" de seleção e avaliação de modelos? Por "tradicional", quero dizer
- divida o conjunto de dados em um treinamento separado (por exemplo, 80%) e um conjunto de testes
- use a validação cruzada de dobras k (por exemplo, k = 10) para ajuste de hiperparâmetro e seleção de modelo no conjunto de treinamento
- avaliar o desempenho da generalização do modelo selecionado usando o conjunto de testes
5x2 não é exatamente o mesmo, exceto que o conjunto de teste e treinamento tem o mesmo tamanho se k = 2?
Respostas:
5x2cv, tanto quanto eu vi na literatura, sempre se refere a uma repetição de 5 vezes duas vezes. Não há aninhamento. faça duas vezes (50/50 dividido entre trem e teste), repita-o mais 4 vezes. O 5x2cv foi popularizado pelo artigo Testes estatísticos aproximados para comparar algoritmos de aprendizado de classificação supervisionada por Dietterich como forma de obter não apenas uma boa estimativa do erro de generalização, mas também uma boa estimativa da variação desse erro (para realizar testes estatísticos )
fonte
2 repetições no loop externo significam que você repete seu CV 5 vezes mais duas vezes em todo o conjunto de trens. Cada vez que a subdivisão em dobras for diferente.
Isso é usado principalmente para melhores estimativas do desempenho do modelo, como executar testes estatísticos sobre se um modelo tem desempenho estatisticamente significante melhor que outro.
O CV aninhado não é extremamente importante se o seu conjunto de dados for grande e sem discrepâncias. Se os seus dados tiverem valores discrepantes, o desempenho da validação cruzada poderá ser drasticamente diferente, dependendo de em que dobras / dobras esses discípulos estão. Portanto, você repete o CV várias vezes.
fonte