Meu livro sobre validação cruzada é The Elements of Statistical Learning, de Hastie et al. (2ª ed.). Nas seções 7.10.1 e 7.12, eles falam sobre a diferença entre erro teste condicional e espera erro de teste E τ [ E ( X * , Y * ) [ G ( Y , f ( X
Eles explicaram que o CV apenas estima bem o erro de teste esperado.
Minha pergunta é: existe algum motivo para nos preocuparmos com o erro de teste condicional?
A única razão pela qual pude pensar é que queremos responder à pergunta 'Se Deus coloca conjuntos de dados sobre a mesa, mas nos permite levar apenas 1 para casa, de acordo com o nosso modelo, qual deles devemos escolher?'
fonte
Estou pensando na mesma passagem e também estou imaginando quando algum dia estaria interessado no erro de teste condicional. Além do mais, pelo que entendi, eles devem ser os mesmos assintoticamente: para conjuntos de treinamento e teste muito grandes, a divisão precisa do conjunto de treinamento / teste não deve mais resultar em diferentes estimativas de erro de teste condicional. Como você pode ver no Hastie et al. reserve seus exemplos sobre diferenças esperadas condicionais sempre são baseadas em um número relativamente pequeno de observações, que, se eu entendi corretamente, é a razão pela qual os erros de teste condicionais e esperados parecem diferentes nos gráficos.
O livro menciona que o erro de teste esperado calcula a média da aleatoriedade no conjunto de treinamento, enquanto o erro de teste (condicional) não. Agora, quando eu gostaria de levar em consideração a incerteza associada a qual partição específica de treinamento / conjunto de testes? Minha resposta seria que eu geralmente nunca estou interessado em acomodar esse tipo de incerteza, pois não é isso que me interessa quando estou fazendo a avaliação do modelo: Ao avaliar a qualidade preditiva de um modelo, quero saber como se sairia digamos prever o tempo amanhã. O clima de amanhã está relacionado aos meus dados gerais, da mesma forma que meus dados de teste estão relacionados aos meus dados de treinamento - por isso, calculo um erro de teste condicional para avaliar meu modelo. Contudo, o clima de amanhã está relacionado aos meus dados gerais, não como um conjunto de testes específico, está relacionado ao conjunto de treinamento específico correspondente, mas como o conjunto de testes médio está relacionado ao conjunto de treinamento médio. Portanto, obtenho a próxima partição de treinamento / conjunto de testes e recebo outro erro de teste condicional. Faço isso várias vezes (como, por exemplo, na validação cruzada K-fold) - a variação nos erros de teste condicionais individuais é em média - e fiquei com o erro de teste esperado; o que, novamente, é tudo o que consigo pensar em querer obter. na validação cruzada K-fold) - a variação nos erros de teste condicionais individuais é em média - e fiquei com o erro de teste esperado; o que, novamente, é tudo o que consigo pensar em querer obter. na validação cruzada K-fold) - a variação nos erros de teste condicionais individuais é em média - e fiquei com o erro de teste esperado; o que, novamente, é tudo o que consigo pensar em querer obter.
Em outras palavras, nos gráficos de erro de teste / erro de teste esperado em Hastie et al., Temos uma idéia da eficiência do estimador de modelo: se os erros de teste condicionais estão amplamente dispersos em torno do erro de teste esperado, isso é uma indicação do estimador ineficiente, enquanto menos variação nos erros condicionais de teste indicaria um estimador mais eficiente, dada a quantidade de observações.
Conclusão: posso estar enganado aqui, e ficaria feliz em ser corrigido sobre isso, mas como vejo no momento, o conceito de erro de teste condicional é uma tentativa duvidosa de avaliar a validade do modelo externo, permitindo-se apenas um treinamento / teste de particionamento de teste. Para amostras grandes, esse disparo único deve ser equivalente a erros condicionais de teste, calculados em média em muitos disparos de treinamento / particionamento de teste, ou seja, o erro esperado de teste. Para amostras pequenas em que ocorre uma diferença, a medida de interesse real parece-me o esperado, e não o erro de teste condicional.
fonte