Eu tenho alguns dados e quero construir um modelo (por exemplo, um modelo de regressão linear) a partir desses dados. Em uma próxima etapa, quero aplicar a validação cruzada de uma saída para fora (LOOCV) no modelo para ver o desempenho.
Se entendi direito o LOOCV, construo um novo modelo para cada uma das minhas amostras (o conjunto de testes) usando todas as amostras, exceto esta amostra (o conjunto de treinamento). Então eu uso o modelo para prever o conjunto de testes e calcular os erros .
Em uma próxima etapa, agrego todos os erros gerados usando uma função escolhida, por exemplo, erro quadrático médio. Eu posso usar esses valores para julgar a qualidade (ou qualidade do ajuste) do modelo.
Pergunta: Para qual modelo esses valores de qualidade se aplicam, qual modelo devo escolher se achar que as métricas geradas pelo LOOCV são apropriadas para o meu caso? LOOCV analisou modelos diferentes (onde é o tamanho da amostra); qual é o modelo que devo escolher?n
- É o modelo que utiliza todas as amostras? Este modelo nunca foi calculado durante o processo LOOCV!
- É o modelo que tem o menor erro?
fonte
Respostas:
Em vez de escolher um modelo, o ideal é ajustá-lo a todos os dados e usar o LOO-CV para fornecer uma estimativa ligeiramente conservadora do desempenho desse modelo.
Observe, no entanto, que o LOOCV possui uma alta variação (o valor que você obterá varia muito se você usar uma amostra aleatória diferente de dados), o que geralmente o torna uma má escolha do estimador para avaliação de desempenho, mesmo que seja aproximadamente imparcial. Eu o uso o tempo todo para a seleção de modelos, mas realmente apenas porque é barato (quase grátis para os modelos de kernel em que estou trabalhando).
fonte