O significado de erro de teste condicional vs. erro de teste esperado na validação cruzada

8

Meu livro sobre validação cruzada é The Elements of Statistical Learning, de Hastie et al. (2ª ed.). Nas seções 7.10.1 e 7.12, eles falam sobre a diferença entre erro teste condicional e espera erro de teste E τ [ E ( X * , Y * ) [ G ( Y , f ( X

E(X,Y)[L(Y,f^(X))|τ]
Aqui τ é o conjunto de dados de treinamento, L é a função de perda, f é o modelo treinado em τ . E é a expectativa.
Eτ[E(X,Y)[L(Y,f^(X))|τ]].
τLf^τE

Eles explicaram que o CV apenas estima bem o erro de teste esperado.

Minha pergunta é: existe algum motivo para nos preocuparmos com o erro de teste condicional?

A única razão pela qual pude pensar é que queremos responder à pergunta 'Se Deus coloca conjuntos de dados sobre a mesa, mas nos permite levar apenas 1 para casa, de acordo com o nosso modelo, qual deles devemos escolher?'n

qoheleth
fonte

Respostas:

5

Eu acho que você pode estar entendendo mal o erro de teste condicional. Isso pode ocorrer porque Hastie, Friedman e Tibshirani (HFT) não são consistentes em sua terminologia, às vezes chamando essa mesma noção de "erro de teste", "erro de generalização", "erro de previsão em um conjunto de testes independente", "erro condicional verdadeiro" ou "erro real de teste".

τ

Uma vez que isso afunda, a verdadeira questão é por que alguém deveria se preocupar com o erro de teste esperado! (A HFT também chama isso de "erro de previsão esperado".) Afinal, é uma média de todos os tipos de conjuntos de treinamento que você normalmente nunca vai usar. (A propósito, parece que a HFT pretende uma média de conjuntos de treinamento de um tamanho específico para definir o erro de teste esperado, mas eles nunca dizem isso explicitamente.)

O motivo é que o erro de teste esperado é uma característica mais fundamental de um algoritmo de aprendizado, uma vez que calcula a média sobre os caprichos de você ter ou não sorte com seu conjunto de treinamento específico.

Como você mencionou, o HFT mostra que o CV estima o erro esperado do teste melhor do que o erro condicional do teste. Isso é uma sorte se você estiver comparando algoritmos de aprendizado de máquina, mas lamentável se você quiser saber até que ponto o modelo específico que você se encaixa em um determinado conjunto de treinamento funcionará.

DavidDLewis
fonte
τ
1
Intuitivamente, faz sentido para mim que o CV não seja tão bom para erros de teste condicionais porque todo o procedimento é baseado na alteração dos dados de treinamento. (Para a melhor estimativa do erro de teste condicional, você precisa de um conjunto de testes separado.) Mas é justo perguntar por que as pequenas alterações no conjunto de treinamento envolvidas no LOOCV são suficientes para isso.
Kodiologist
@amoeba você disse algo que chamou minha atenção. LOOCV parece ser uma maneira mais direta de estimar o erro condicional em comparação com o CV de 10 vezes. Mas, de fato, a página 255 do livro HTF, do exercício de simulação, mostra que o CV de 10 vezes é a melhor maneira de estimar o erro condicional. Eu acho que isso ainda me preocupa também
Chamberlain Foncha 15/01
0

Estou pensando na mesma passagem e também estou imaginando quando algum dia estaria interessado no erro de teste condicional. Além do mais, pelo que entendi, eles devem ser os mesmos assintoticamente: para conjuntos de treinamento e teste muito grandes, a divisão precisa do conjunto de treinamento / teste não deve mais resultar em diferentes estimativas de erro de teste condicional. Como você pode ver no Hastie et al. reserve seus exemplos sobre diferenças esperadas condicionais sempre são baseadas em um número relativamente pequeno de observações, que, se eu entendi corretamente, é a razão pela qual os erros de teste condicionais e esperados parecem diferentes nos gráficos.

O livro menciona que o erro de teste esperado calcula a média da aleatoriedade no conjunto de treinamento, enquanto o erro de teste (condicional) não. Agora, quando eu gostaria de levar em consideração a incerteza associada a qual partição específica de treinamento / conjunto de testes? Minha resposta seria que eu geralmente nunca estou interessado em acomodar esse tipo de incerteza, pois não é isso que me interessa quando estou fazendo a avaliação do modelo: Ao avaliar a qualidade preditiva de um modelo, quero saber como se sairia digamos prever o tempo amanhã. O clima de amanhã está relacionado aos meus dados gerais, da mesma forma que meus dados de teste estão relacionados aos meus dados de treinamento - por isso, calculo um erro de teste condicional para avaliar meu modelo. Contudo, o clima de amanhã está relacionado aos meus dados gerais, não como um conjunto de testes específico, está relacionado ao conjunto de treinamento específico correspondente, mas como o conjunto de testes médio está relacionado ao conjunto de treinamento médio. Portanto, obtenho a próxima partição de treinamento / conjunto de testes e recebo outro erro de teste condicional. Faço isso várias vezes (como, por exemplo, na validação cruzada K-fold) - a variação nos erros de teste condicionais individuais é em média - e fiquei com o erro de teste esperado; o que, novamente, é tudo o que consigo pensar em querer obter. na validação cruzada K-fold) - a variação nos erros de teste condicionais individuais é em média - e fiquei com o erro de teste esperado; o que, novamente, é tudo o que consigo pensar em querer obter. na validação cruzada K-fold) - a variação nos erros de teste condicionais individuais é em média - e fiquei com o erro de teste esperado; o que, novamente, é tudo o que consigo pensar em querer obter.

Em outras palavras, nos gráficos de erro de teste / erro de teste esperado em Hastie et al., Temos uma idéia da eficiência do estimador de modelo: se os erros de teste condicionais estão amplamente dispersos em torno do erro de teste esperado, isso é uma indicação do estimador ineficiente, enquanto menos variação nos erros condicionais de teste indicaria um estimador mais eficiente, dada a quantidade de observações.

Conclusão: posso estar enganado aqui, e ficaria feliz em ser corrigido sobre isso, mas como vejo no momento, o conceito de erro de teste condicional é uma tentativa duvidosa de avaliar a validade do modelo externo, permitindo-se apenas um treinamento / teste de particionamento de teste. Para amostras grandes, esse disparo único deve ser equivalente a erros condicionais de teste, calculados em média em muitos disparos de treinamento / particionamento de teste, ou seja, o erro esperado de teste. Para amostras pequenas em que ocorre uma diferença, a medida de interesse real parece-me o esperado, e não o erro de teste condicional.

user52821
fonte