Justificativa empírica para a regra de erro padrão ao usar a validação cruzada

39

Existem estudos empíricos que justifiquem o uso da regra de erro padrão em favor da parcimônia? Obviamente, depende do processo de geração de dados, mas qualquer coisa que analise um grande conjunto de conjuntos de dados seria uma leitura muito interessante.


A "regra de erro padrão" é aplicada ao selecionar modelos por meio de validação cruzada (ou mais geralmente por meio de qualquer procedimento baseado em randomização).

Suponha que consideremos os modelos indexados por um parâmetro de complexidade , de modo que seja "mais complexo" que exatamente quando . Suponha ainda que avaliamos a qualidade de um modelo por algum processo de randomização, por exemplo, validação cruzada. Deixe denotar a qualidade "média" de , por exemplo, o erro médio de previsão fora da bolsa em muitas execuções de validação cruzada. Queremos minimizar essa quantidade.MττRMτMττ>τMq(M)M

No entanto, como nossa medida de qualidade vem de algum procedimento de randomização, ela vem com variabilidade. Vamos denotar o erro padrão da qualidade de através das execuções aleatórias, por exemplo, o desvio padrão do erro de previsão de fora da bolsa sobre as execuções de validação cruzada.s(M)MM

Então escolhemos o modelo , onde é o menor tal queMτττ

q(Mτ)q(Mτ)+s(Mτ),

onde indexa o melhor modelo (em média), .τq(Mτ)=minτq(Mτ)

Ou seja, escolhemos o modelo mais simples (o menor τ ) que não é mais do que um erro padrão pior que o melhor modelo Mτ no procedimento de randomização.

Eu encontrei essa "regra de erro padrão" mencionada nos seguintes lugares, mas nunca com justificativa explícita:

DavidShor
fonte
7
Embora eu saiba ao que você está se referindo por "Regra de erro padrão único", suspeito fortemente que muitas pessoas não saberão, mas estariam interessadas nessa questão, se souberem. Talvez você possa editar para adicionar algumas frases explicativas? (É só uma sugestão ...)
jbowman
2
@jbowman: Acabei de editar a pergunta para explicar a regra de erro padrão, ignorando-a, já que também estou muito interessada nisso ... e a resposta abaixo não responde de verdade às minhas perguntas. Qualquer um, sinta-se à vontade para melhorar.
S. Kolassa - Restabelece Monica
Relacionado: stats.stackexchange.com/questions/138569
ameba says Reinstate Monica
2
Seria um bom tópico para um artigo. Parece uma heurística de engenharia sensata, mas nem todos os SEHs funcionam na prática; portanto, um estudo sobre um grande número de conjuntos de dados seria interessante. Eu me pergunto se há algum problema de teste de hipóteses envolvido, o que pode significar que ele não está muito bem calibrado, mas eu pensaria que seria melhor do que não fazer nada em conjuntos de dados em que esse tipo de excesso de ajuste provavelmente problema. A questão é: isso piora muito o desempenho em conjuntos de dados onde não há problema?
Dikran Marsupial

Respostas:

12

O seguinte não é um estudo empírico , e é por isso que eu originalmente queria publicá-lo como um comentário, não como uma resposta - mas na verdade acaba sendo muito longo para um comentário.

Cawley & Talbot ( J of Machine Learning Research , 2010) chamam a atenção para a diferença entre o ajuste excessivo durante a fase de seleção do modelo e o ajuste excessivo durante a fase de ajuste do modelo.

O segundo tipo de ajuste excessivo é aquele com o qual a maioria das pessoas está familiarizada: dado um modelo específico, não queremos ajustá-lo demais, ou seja, ajustá-lo muito próximo às idiossincrasias específicas do conjunto de dados único que normalmente temos. ( É aqui que o encolhimento / regularização pode ajudar, negociando um pequeno aumento no viés contra uma grande diminuição na variação. )

No entanto, Cawley & Talbot argumentam que também podemos superestimar durante o estágio de seleção do modelo. Afinal, ainda temos tipicamente apenas um único conjunto de dados e estamos decidindo entre diferentes modelos de complexidade variável. A avaliação de cada modelo candidato para selecionar um geralmente envolve a adaptação desse modelo, o que pode ser feito com regularização ou não. Mas essa avaliação em si é novamente uma variável aleatória, porque depende do conjunto de dados específico que temos. Portanto, a nossa escolha de um "ideal" modelo pode por si só apresentam um viés, e vai apresentar uma variação, como dependendo do conjunto de dados específicos de todos os conjuntos de dados que poderiam ter extraídas da população.

Cawley & Talbot, portanto, argumentam que a simples escolha do modelo com melhor desempenho nessa avaliação pode ser uma regra de seleção com pequeno viés - mas pode apresentar grande variação. Ou seja, dados conjuntos de dados de treinamento diferentes do mesmo processo de geração de dados (DGP), essa regra pode selecionar modelos muito diferentes, que seriam então ajustados e usados ​​para prever em novos conjuntos de dados que seguem novamente o mesmo DGP. Nesse sentido, restringir a variação do procedimento de seleção de modelo, mas incorrendo em um pequeno viés em relação a modelos mais simples, pode gerar erros menores fora da amostra.

Cawley e Talbot não conectam isso explicitamente à regra de erro padrão, e sua seção sobre "regularização de seleção de modelos" é muito curta. No entanto, a regra de erro padrão executaria exatamente essa regularização e levaria em consideração o relacionamento entre a variação na seleção do modelo e a variação do erro de validação cruzada pronto para uso.

Por exemplo, abaixo está a Figura 2.3 do Statistical Learning with Sparsity de Hastie, Tibshirani & Wainwright (2015) . A variação de seleção do modelo é dada pela convexidade da linha preta no mínimo. Aqui, o mínimo não é muito pronunciado e a linha é fracamente convexa; portanto, a seleção do modelo é provavelmente bastante incerta com uma alta variação. E a variação da estimativa de erro de CV do OOB é obviamente dada pelas múltiplas linhas azuis claras indicando erros padrão.

uma regra de erro padrão

S. Kolassa - Restabelecer Monica
fonte
1
Haha, tente esta pesquisa (ou coloque um hífen na sua consulta).
Ameba diz Reinstate Monica
2
Se você tiver apenas um parâmetro de regularização, esse tipo de ajuste excessivo tende a não ser muito problemático (como o problema de otimização tem apenas um grau de liberdade), mas se você tiver muitos parâmetros de regularização (por exemplo, determinação automática de relevância para redes neurais) então pode rapidamente acabar sendo muito substancial. O método one sd é uma boa heurística para evitar a otimização excessiva do parâmetro de regularização, mas seria bom tentar e ter algo com um pouco mais de justificativa (1/2)
Dikran Marsupial
1
As duas abordagens que nós (Sra. Marsupial e eu) investigamos é regularizar os hiperparâmetros com um hiperparâmetro hiper que é integrado analiticamente ( jmlr.csail.mit.edu/papers/volume8/cawley07a/cawley07a.pdf ) ou converter alguns dos hiperparâmetros em parâmetros e ajustá-los diretamente aos dados, às custas da adição de um parâmetro de regularização extra (mas que ainda reduz os graus de liberdade para a seleção do modelo, e ainda ajuda) ( theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf ) (2/2)
Dikran Marsupial
1
λ
1
Um tópico sobre o tópico otimizando-lambda-vs-marginalizando-sobre-lambda mencionado pelo @DikranMarsupial é stats.stackexchange.com/questions/24799 . Essa discussão é sobre regressão de cordilheira, e marginalizar é provavelmente (?) Mais complicado para laço / rede elástica / etc, enquanto a beleza do CV é que é tão fácil de implementar.
Ameba diz Reinstate Monica
12

Para uma justificativa empírica, consulte a página 12 nestas notas do curso de mineração de dados Tibshirani , que mostra o erro do CV como uma função do lambda para um problema de modelagem específico. A sugestão parece ser que, abaixo de um certo valor, todas as lambdas apresentem o mesmo erro CV. Isso faz sentido porque, diferentemente da regressão de crista, o LASSO normalmente não é usado apenas, ou mesmo principalmente, para melhorar a precisão da previsão. Seu principal ponto de venda é que ele torna os modelos mais simples e mais interpretáveis, eliminando os preditores menos relevantes / valiosos.

λL1

Paulo
fonte
1
Eu não entendo a lógica desta resposta. Por exemplo: "ao contrário da regressão de crista, o LASSO não é um mecanismo para melhorar a precisão da previsão" - por quê? Por que L1 é tão diferente de L2? Na próxima frase, você descreve o que acontece com L1 para lambdas baixas, mas acho que o mesmo acontece com L2 para lambdas baixas.
Ameba diz Reinstate Monica
1
Observe que esta é uma explicação heurística e se baseia em algumas suposições não declaradas, como todos os preditores são informativos. Se você tem uma tonelada de preditores de ruído e alguns informativos, pode haver um valor de lambda que otimiza de forma clara e marcante a métrica CV: aquela que corresponde à seleção do subconjunto de preditores informativos. Como o lambda diminui abaixo desse valor, você está apenas deixando o ruído entrar e prejudicando o modelo.
Paul
1
Eu acho que o argumento funciona igualmente bem para cume e laço, se você usar uma definição ampla de parcimônia na qual mais regularização -> modelo mais simples. No entanto, é mais fácil motivar para L1 do que para L2 devido aos diferentes tipos de problemas e conjuntos de dados em que são usados. As pessoas que usam L1 estão mais interessadas em ter um modelo simples e são mais propensas a encontrar o tipo de curva de erro CV exibida por Tibshirani.
Paul
1
Do texto clássico de ESL , p. 224: "Geralmente, uma regra de" erro padrão único "é usada com a validação cruzada, na qual escolhemos o modelo mais parcimonioso, cujo erro não passa de um erro padrão acima do erro do melhor modelo". O exemplo dado é a regressão de subconjunto e uma curva em forma de joelho versus número de preditores é mostrada. A curva é plana acima do número correto de preditores, o que é novamente consistente com a explicação que eu dei acima. Nenhuma justificação rigorosa ou matemática é mencionada.
Paul
1
Então, acho que a questão principal aqui é que o mínimo é mal determinado, mas o modelo mais regularizado dentro de um sigma do mínimo está bem definido.
Paul
1

λλS^(λ)λ

λP(S0S^(λ))1S0

Isso deve ser relatado em Estatísticas para dados de alta dimensão por Bühlmann e van de Geer.

λ

Donbeo
fonte
1
Você pode entrar em mais detalhes aqui? Isso parece fascinante.
precisa saber é o seguinte
1
λ
Eu acho que o fato é que selecionar mais variáveis ​​do que o necessário reduzirá o desempenho da previsão menos do que selecionar variáveis ​​insuficientes. Por esse motivo, o CV tende a selecionar mais variáveis.
12137 Donbeo
dê uma olhada neste livro springer.com/gp/book/9783642201912 e no capítulo laço aqui drive.google.com/open?id=0B3FIuCA5bZUaT2ZLWFBIZ1JYbHM
Donbeo
Este é o livro que eu quis dizer
Donbeo