Em seu artigo Seleção de modelo linear por validação cruzada , Jun Shao mostra que, para o problema de seleção de variáveis na regressão linear multivariada, o método de validação cruzada de sobreaquecimento (LOOCV) é 'assintoticamente inconsistente'. Em inglês simples, ele tende a selecionar modelos com muitas variáveis. Em um estudo de simulação, Shao mostra que, mesmo com apenas 40 observações, o LOOCV pode ter um desempenho inferior a outras técnicas de validação cruzada.
Este artigo é um tanto controverso e um pouco ignorado (10 anos após sua publicação, meus colegas de quimiometria nunca ouviram falar dele e estavam felizes em usar LOOCV para seleção de variáveis ...). Também há uma crença (eu sou culpado disso), de que seus resultados se estendem um pouco além do escopo limitado original.
A questão, então: até que ponto esses resultados se estendem? Eles são aplicáveis aos seguintes problemas?
- Seleção de variáveis para regressão logística / GLM?
- Seleção de variáveis para a classificação Fisher LDA?
- Seleção de variáveis usando SVM com espaço finito (ou infinito) de kernel?
- Comparação de modelos na classificação, digamos SVM usando diferentes kernels?
- Comparação de modelos em regressão linear, digamos, comparando MLR com regressão de Ridge?
- etc.
fonte
Respostas:
Você precisa especificar o objetivo do modelo antes de poder dizer se os resultados de Shao são aplicáveis. Por exemplo, se o objetivo é previsão, LOOCV faz sentido e a inconsistência da seleção de variáveis não é um problema. Por outro lado, se o objetivo é identificar as variáveis importantes e explicar como elas afetam a variável de resposta, os resultados de Shao são obviamente importantes e o LOOCV não é apropriado.
A AIC é assintoticamente LOOCV e BIC é assintoticamente equivalente a um deixar- -out CV onde --- o resultado BIC apenas para modelos lineares. Portanto, o BIC oferece uma seleção consistente de modelos. Portanto, um resumo resumido do resultado de Shao é que o AIC é útil para previsão, mas o BIC é útil para explicação.v = n [ 1 - 1 / ( log ( n ) - 1 ) ]v v=n[1−1/(log(n)−1)]
fonte
Na verdade, não é bem visto no que diz respeito à teoria da seleção de modelos, embora certamente seja mal interpretada. A verdadeira questão é quão relevante é para a prática de modelagem na natureza. Suponha que você execute as simulações para os casos que propõe investigar e determine que o LOOCV é realmente inconsistente. A única razão pela qual você entenderia isso é porque você já conhecia o modelo "true" e, portanto, pode determinar que a probabilidade de recuperar o modelo "true" não converge para 1. Para modelar em ambiente selvagem, com que frequência isso é verdade ( que os fenômenos são descritos por modelos lineares e o modelo "verdadeiro" é um subconjunto daqueles em consideração)?
O artigo de Shao é certamente interessante para avançar no arcabouço teórico. Ele ainda fornece alguma clareza: se o modelo "verdadeiro" está de fato em consideração, temos os resultados de consistência em que podemos usar. Mas não tenho certeza de quão interessantes serão as simulações reais para os casos que você descreve. É por isso que a maioria dos livros como EOSL não se concentra tanto no resultado de Shao, mas no erro de predição / generalização como critério para a seleção de modelos.
EDIT: A resposta muito curta à sua pergunta é: Os resultados de Shao são aplicáveis quando você está executando uma estimativa de mínimos quadrados, função de perda quadrática. Não é mais amplo. (Acho que houve um artigo interessante de Yang (2005?) Que investigou se você poderia ter consistência e eficiência, com uma resposta negativa.)
fonte
Eu diria: em todo lugar, mas não vi uma prova estrita disso. A intuição subjacente é tal que, ao fazer CV, é preciso manter um equilíbrio entre o trem grande o suficiente para criar um modelo sensato e testar o suficiente, para que seja uma referência sensata.10/10 1
Ao lidar com milhares de objetos bastante homogêneos, escolher um deles está relacionado ao risco de que ele seja bastante semelhante a outro objeto que foi deixado no conjunto - e os resultados seriam otimistas demais.
Por outro lado, no caso de poucos objetos, não haverá diferença vital entre LOO e k-fold; é apenas e não podemos fazer nada com isso.1
fonte
1) A resposta de @ars menciona Yang (2005): "Os pontos fortes da AIC e da BIC podem ser compartilhados?" . Em termos gerais, parece que não é possível que um critério de seleção de modelo atinja a consistência (tendem a escolher o modelo correto, se existe realmente um modelo correto e ele está entre os modelos sendo considerados) e a eficiência (atinja a média mais baixa erro quadrático em média entre os modelos que você escolheu). Se você tende a escolher o modelo certo, em média, às vezes você obtém modelos um pouco pequenos demais ... mas, muitas vezes, perdendo um preditor real, é pior em termos de MSE do que alguém que sempre inclui alguns preditores espúrios.
Portanto, como dito anteriormente, se você se preocupa mais em fazer boas previsões do que em obter as variáveis exatamente corretas, é bom continuar usando LOOCV ou AIC.
2) Mas eu também queria destacar outros dois artigos: Yang (2006) "Comparando Métodos de Aprendizagem para Classificação" e Yang (2007) "Consistência da Validação Cruzada para Comparação de Procedimentos de Regressão" . Esses documentos mostram que você não precisa da proporção de dados de treinamento para testes para chegar a 0 se estiver comparando modelos que convergem em taxas mais lentas do que os modelos lineares.
Portanto, para responder suas perguntas originais de 1 a 6 mais diretamente: Os resultados de Shao se aplicam ao comparar modelos lineares entre si. Seja para regressão ou classificação, se você estiver comparando modelos não paramétricos que convergem em uma taxa mais lenta (ou mesmo comparando um modelo linear com um modelo não paramétrico), é possível usar a maioria dos dados para treinamento e ainda ter um CV consistente com a seleção de modelos. .. mas ainda assim, Yang sugere que o LOOCV é muito extremo.
fonte