Meu entendimento é que, com a validação cruzada e a seleção de modelos, tentamos abordar duas coisas:
P1 . Estimar a perda esperada na população ao treinar com nossa amostra
P2 . Medir e relatar nossa incerteza em relação a essa estimativa (variação, intervalos de confiança, viés etc.)
A prática padrão parece ser a validação cruzada repetida, pois isso reduz a variação do nosso estimador.
No entanto, quando se trata de relatórios e análises, entendo que a validação interna é melhor que a validação externa porque:
É melhor relatar:
- As estatísticas do nosso estimador, por exemplo, seu intervalo de confiança, variância, média etc. na amostra completa (neste caso, a amostra CV).
do que os relatórios:
A perda de nosso estimador em um subconjunto de espera da amostra original, pois:
(i) Essa seria uma medida única ( mesmo se escolhermos nosso estimador com CV )
(ii) Nosso estimador para essa medição única teria sido treinado em um conjunto (por exemplo, o conjunto de CV) que é menor que a nossa amostra inicial, pois precisamos abrir espaço para o conjunto de espera. Isso resulta em uma estimativa mais tendenciosa (pessimista) em P1 .
Isso está correto? Se não, por quê?
Fundo:
É fácil encontrar livros que recomendam dividir sua amostra em dois conjuntos:
- O conjunto de CV , que é subsequente e repetidamente dividido em conjuntos de treinamento e validação .
- O conjunto de espera (teste), usado apenas no final para relatar o desempenho do estimador
Minha pergunta é uma tentativa de entender os méritos e as vantagens dessa abordagem, considerando que nosso objetivo é realmente abordar os problemas P1 e P2 no início deste post. Parece-me que relatar o conjunto de testes de retenção é uma prática ruim, pois a análise da amostra do CV é mais informativa.
Dobra K aninhada vs dobra K repetida:
Em princípio, pode-se combinar o afastamento com a dobra K regular para obter uma dobra K aninhada . Isso nos permitiria medir a variabilidade de nosso estimador, mas parece-me que, para o mesmo número de modelos totais treinados (número total de dobras) dobras K repetidas, produziria estimadores menos tendenciosos e mais precisos que o K- aninhado dobra. Para ver isso:
- A dobra K repetida usa uma fração maior da nossa amostra total do que a dobra K aninhada para o mesmo K (ou seja, leva a um viés menor)
- 100 iterações dariam apenas 10 medidas do nosso estimador na dobra K aninhada (K = 10), mas 100 medidas na dobra K (mais medidas levam a uma menor variação no P2 )
O que há de errado com esse raciocínio?
fonte
Respostas:
Deixe-me acrescentar alguns pontos para as boas respostas que já estão aqui:
Dobra K aninhada versus dobra K repetida: dobra k aninhada e repetida são coisas totalmente diferentes, usadas para fins diferentes.
Portanto, recomendo repetir qualquer validação cruzada de dobras k aninhada .
Melhor relatório "As estatísticas do nosso estimador, por exemplo, seu intervalo de confiança, variância, média, etc., na amostra completa (neste caso, a amostra CV)." :
Certo. No entanto, você precisa estar ciente do fato de que não poderá (facilmente) estimar o intervalo de confiança apenas pelos resultados da validação cruzada. A razão é que, por mais que você faça uma nova amostra, o número real de casos que você olha é finito (e geralmente bastante pequeno - caso contrário, você não se importaria com essas distinções).
Veja, por exemplo , Bengio, Y. e Grandvalet, Y .: Nenhum estimador imparcial da variância do Jornal de validação cruzada K-Fold da Machine Learning Research, 2004, 5, 1089-1105 .
C. Beleites, R. Salzer e V. Sergo: Validação de Modelos de Classificação Macia usando Associações Parciais de Classe: Um Conceito Estendido de Sensibilidade & Co. aplicado à Classificação de Tecidos de Astrocitoma, Chemom. Intell. Lab. Syst., 122 (2013), 12-22.
Portanto, isso permite que você revele sua argumentação contra o impedimento :
Geralmente sim. No entanto, também é bom lembrar que existem tipos importantes de erros (como desvio) que não podem ser medidos / detectados pela validação de reamostragem.
Ver, por exemplo , Esbensen, KH e Geladi, P. Princípios de Validação Adequada: uso e abuso de nova amostragem para validação, Journal of Chemometrics, 2010, 24, 168-187
Se isso faz diferença depende da instabilidade dos modelos (substitutos), veja acima. Para modelos estáveis, é irrelevante. Pode ser que você faça 1000 ou 100 repetições / iterações externas.
E este artigo pertence definitivamente à lista de leitura sobre este tópico: Cawley, GC e Talbot, NLC Sobre adaptação excessiva na seleção de modelos e viés de seleção subsequente na avaliação de desempenho, Journal of Machine Learning Research, 2010, 11, 2079-2107
fonte
Uma referência importante que explica isso é:
Veja também:
Em meu próprio trabalho, descobri que a divisão de dados requer treinamento e tamanhos de amostra de teste próximos de 10.000 para funcionar satisfatoriamente.
fonte
Realmente depende do processo de construção do modelo, mas achei este artigo útil
http://www.biomedcentral.com/content/pdf/1471-2105-7-91.pdf
O ponto crucial do que é discutido aqui é o viés liberal significativo (estimar o desempenho do modelo para ser melhor do que realmente será) que ocorrerá se você estiver selecionando seu modelo com base na mesma coisa que está usando para estimar seu desempenho. Portanto, se você estiver selecionando seu modelo em um conjunto de modelos possíveis, observando seu erro de validação cruzada, não deverá usar o erro de validação cruzada (ou qualquer outro método de estimativa interna) para estimar o desempenho do modelo.
Outro recurso útil é
/stats//a/27751/26589
Este post apresenta um exemplo claro de como a seleção de seus recursos quando todos os dados são "vistos" levará a um viés liberal no desempenho do modelo (dizendo que seu modelo terá um desempenho melhor do que realmente será).
Se você desejar que eu descreva um exemplo mais específico para o que você faz, talvez você possa fornecer uma descrição geral dos tipos de modelos que está construindo (quantos dados você tem, quantos recursos você seleciona, o modelo real etc.).
fonte
Acho que seu entendimento está correto, o estimador de perdas obtido usando um único conjunto de testes de espera geralmente apresenta alta variação. Ao executar algo como a validação cruzada de dobras em K, você obtém uma idéia mais precisa da perda, bem como um senso de distribuição da perda.
Geralmente, há uma troca, quanto mais CV dobra, melhor sua estimativa, mas é necessário mais tempo computacional.
fonte