Existem estudos empíricos que justifiquem o uso da regra de erro padrão em favor da parcimônia? Obviamente, depende do processo de geração de dados, mas qualquer coisa que analise um grande conjunto de conjuntos de dados seria uma leitura muito interessante.
A "regra de erro padrão" é aplicada ao selecionar modelos por meio de validação cruzada (ou mais geralmente por meio de qualquer procedimento baseado em randomização).
Suponha que consideremos os modelos indexados por um parâmetro de complexidade , de modo que seja "mais complexo" que exatamente quando . Suponha ainda que avaliamos a qualidade de um modelo por algum processo de randomização, por exemplo, validação cruzada. Deixe denotar a qualidade "média" de , por exemplo, o erro médio de previsão fora da bolsa em muitas execuções de validação cruzada. Queremos minimizar essa quantidade.
No entanto, como nossa medida de qualidade vem de algum procedimento de randomização, ela vem com variabilidade. Vamos denotar o erro padrão da qualidade de através das execuções aleatórias, por exemplo, o desvio padrão do erro de previsão de fora da bolsa sobre as execuções de validação cruzada.
Então escolhemos o modelo , onde é o menor tal que
onde indexa o melhor modelo (em média), .
Ou seja, escolhemos o modelo mais simples (o menor ) que não é mais do que um erro padrão pior que o melhor modelo no procedimento de randomização.
Eu encontrei essa "regra de erro padrão" mencionada nos seguintes lugares, mas nunca com justificativa explícita:
- Página 80 em Árvores de Classificação e Regressão por Breiman, Friedman, Stone & Olshen (1984)
- Página 415 em Estimando o número de clusters em um conjunto de dados por meio da estatística Gap de Tibshirani, Walther & Hastie ( JRSS B , 2001) (referenciando Breiman et al.)
- Páginas 61 e 244 em Elements of Statistical Learning por Hastie, Tibshirani & Friedman (2009)
- Página 13 em Statistical Learning with Sparsity por Hastie, Tibshirani & Wainwright (2015)
fonte
Respostas:
O seguinte não é um estudo empírico , e é por isso que eu originalmente queria publicá-lo como um comentário, não como uma resposta - mas na verdade acaba sendo muito longo para um comentário.
Cawley & Talbot ( J of Machine Learning Research , 2010) chamam a atenção para a diferença entre o ajuste excessivo durante a fase de seleção do modelo e o ajuste excessivo durante a fase de ajuste do modelo.
O segundo tipo de ajuste excessivo é aquele com o qual a maioria das pessoas está familiarizada: dado um modelo específico, não queremos ajustá-lo demais, ou seja, ajustá-lo muito próximo às idiossincrasias específicas do conjunto de dados único que normalmente temos. ( É aqui que o encolhimento / regularização pode ajudar, negociando um pequeno aumento no viés contra uma grande diminuição na variação. )
No entanto, Cawley & Talbot argumentam que também podemos superestimar durante o estágio de seleção do modelo. Afinal, ainda temos tipicamente apenas um único conjunto de dados e estamos decidindo entre diferentes modelos de complexidade variável. A avaliação de cada modelo candidato para selecionar um geralmente envolve a adaptação desse modelo, o que pode ser feito com regularização ou não. Mas essa avaliação em si é novamente uma variável aleatória, porque depende do conjunto de dados específico que temos. Portanto, a nossa escolha de um "ideal" modelo pode por si só apresentam um viés, e vai apresentar uma variação, como dependendo do conjunto de dados específicos de todos os conjuntos de dados que poderiam ter extraídas da população.
Cawley & Talbot, portanto, argumentam que a simples escolha do modelo com melhor desempenho nessa avaliação pode ser uma regra de seleção com pequeno viés - mas pode apresentar grande variação. Ou seja, dados conjuntos de dados de treinamento diferentes do mesmo processo de geração de dados (DGP), essa regra pode selecionar modelos muito diferentes, que seriam então ajustados e usados para prever em novos conjuntos de dados que seguem novamente o mesmo DGP. Nesse sentido, restringir a variação do procedimento de seleção de modelo, mas incorrendo em um pequeno viés em relação a modelos mais simples, pode gerar erros menores fora da amostra.
Cawley e Talbot não conectam isso explicitamente à regra de erro padrão, e sua seção sobre "regularização de seleção de modelos" é muito curta. No entanto, a regra de erro padrão executaria exatamente essa regularização e levaria em consideração o relacionamento entre a variação na seleção do modelo e a variação do erro de validação cruzada pronto para uso.
Por exemplo, abaixo está a Figura 2.3 do Statistical Learning with Sparsity de Hastie, Tibshirani & Wainwright (2015) . A variação de seleção do modelo é dada pela convexidade da linha preta no mínimo. Aqui, o mínimo não é muito pronunciado e a linha é fracamente convexa; portanto, a seleção do modelo é provavelmente bastante incerta com uma alta variação. E a variação da estimativa de erro de CV do OOB é obviamente dada pelas múltiplas linhas azuis claras indicando erros padrão.
fonte
Para uma justificativa empírica, consulte a página 12 nestas notas do curso de mineração de dados Tibshirani , que mostra o erro do CV como uma função do lambda para um problema de modelagem específico. A sugestão parece ser que, abaixo de um certo valor, todas as lambdas apresentem o mesmo erro CV. Isso faz sentido porque, diferentemente da regressão de crista, o LASSO normalmente não é usado apenas, ou mesmo principalmente, para melhorar a precisão da previsão. Seu principal ponto de venda é que ele torna os modelos mais simples e mais interpretáveis, eliminando os preditores menos relevantes / valiosos.
fonte
Isso deve ser relatado em Estatísticas para dados de alta dimensão por Bühlmann e van de Geer.
fonte