Tenho usado repetidas vezes a validação cruzada de dobras em k e relatado a média (da métrica de avaliação, por exemplo, sensibilidade, especificidade) calculada como a grande média entre as dobras de diferentes execuções da validação cruzada.
No entanto, não tenho certeza de como devo reportar a variação. Encontrei muitas perguntas aqui discutindo a validação cruzada repetida, no entanto, nenhuma que eu saiba explicitamente responde à questão da variação nos testes de validação cruzada repetidos.
Entendo que a variação total se deve a: 1) instabilidade do modelo e 2) tamanho limitado da amostra.
Parece que existem 4 abordagens diferentes para calcular a variação para validação cruzada repetida em dobras k:
1) a variação da métrica de desempenho médio estimada (por exemplo, precisão) entre as execuções da validação cruzada é uma estimativa válida da variação?
2) a variação combinada, combinando variações específicas da execução (que são computadas em diferentes dobras de um teste de validação cruzada).
3) concatenar os resultados da classificação de diferentes dobras de uma validação cruzada executada em um vetor grande. Por exemplo, se o número de dados de teste em cada dobra for 10 e eu tiver um CV de 10 vezes, o vetor resultante para uma repetição será do tamanho 100. Agora, se eu repetir meu teste de validação cruzada 10 vezes, tem 10 vetores de tamanho 100, cada um dos quais contendo a classificação resulta de uma execução CV de 10 vezes. Agora, eu calcularia a média e a variância como o caso do CV de execução única.
4) Também li (equações 2 e 3 em 1 ) que a variação é a soma da variação externa e a variação interna esperada. Se bem entendi, a variação externa é a variação dos desempenhos médios específicos da repetição, e a variação interna é a variação entre diferentes dobras de uma execução de validação cruzada.
Agradecemos imensamente sua ajuda e orientação sobre qual variação seria a mais apropriada a ser relatada para o teste repetido de validação cruzada.
Obrigado,
fonte
Respostas:
1 e 3 me parecem inválidas, pois não levam em conta as dependências entre execuções repetidas. Em outras palavras, execuções repetidas em k-fold são mais semelhantes entre si do que repetições reais do experimento com dados independentes.
2 não leva em consideração as dependências entre dobras na mesma execução.
Eu não sei sobre 4.
Uma referência potencialmente relevante (e desanimadora) é Bengio & Grandvalet, 2004, "Nenhum estimador imparcial da variação da validação cruzada do K-Fold"
fonte