Por que a melhor seleção de subconjunto não é preferida em comparação com o laço?

13

Estou lendo sobre a melhor seleção de subconjunto no livro Elementos do aprendizado estatístico. Se eu tiver 3 preditores x1,x2,x3 , crio 23=8 subconjuntos:

  1. Subconjunto sem preditores
  2. subconjunto com o preditorx1
  3. subconjunto com o preditorx2
  4. subconjunto com preditor x3
  5. subconjunto com preditores x1,x2
  6. subconjunto com preditores x1,x3
  7. subconjunto com preditores x2,x3
  8. subconjunto com preditores x1,x2,x3

Depois, testo todos esses modelos nos dados de teste para escolher o melhor.

Agora, minha pergunta é por que a melhor seleção de subconjunto não é favorecida em comparação com, por exemplo, laço?

Se eu comparar as funções de limiar do melhor subconjunto e laço, vejo que o melhor subconjunto define alguns dos coeficientes para zero, como o laço. Mas, o outro coeficiente (valores diferentes de zero) ainda terá os valores de ols, eles serão inviáveis. Enquanto que, no laço, alguns dos coeficientes serão zero e os outros (diferentes de zero) terão algum viés. A figura abaixo mostra melhor: insira a descrição da imagem aqui

Na figura, a parte da linha vermelha no melhor subconjunto está sobre a cinza. A outra parte está no eixo x, onde alguns dos coeficientes são zero. A linha cinza define as soluções imparciais. No laço, algum viés é introduzido por . A partir desta figura, vejo que o melhor subconjunto é melhor que o laço! Quais são as desvantagens de usar o melhor subconjunto?λ

Ville
fonte
1
.. e como são as curvas quando a aleatoriedade nos dados faz com que você selecione um dos muitos subconjuntos errados e as estimativas do coeficiente associado estão longe de zero em relação aos erros padrão?
jbowman
2
@bowbowman Eu não entendo muito claramente, por que a aleatoriedade nos dados me levou a selecionar o errado? Se eu usasse a validação cruzada para selecionar o melhor subconjunto, teria chances menores de selecionar o subconjunto errado.
Ville
1
Você parece estar equiparando "menos preconceito" a "melhor". O que o leva a valorizar tanto a imparcialidade?
Matthew Drury

Respostas:

16

Na seleção de subconjunto, os parâmetros diferentes de zero somente serão imparciais se você tiver escolhido um superconjunto do modelo correto, ou seja, se você tiver removido apenas preditores cujos valores reais do coeficiente sejam zero. Se o seu procedimento de seleção levou você a excluir um preditor com um verdadeiro coeficiente diferente de zero, todas as estimativas de coeficiente serão tendenciosas. Isso derrota seu argumento se você concorda que a seleção normalmente não é perfeita.

Portanto, para ter certeza de uma estimativa de modelo imparcial, você deve errar ao incluir mais ou mesmo todos os preditores potencialmente relevantes. Ou seja, você não deve selecionar nada.

Por que isso é uma má ideia? Por causa da troca de polarização e variação. Sim, seu modelo grande será imparcial, mas terá uma grande variação, e a variação dominará o erro de previsão (ou outro).

Portanto, é melhor aceitar que as estimativas de parâmetros vai ser tendenciosa, mas têm variância inferior (regularização), ao invés de esperança de que a nossa selecção subconjunto tem apenas removido verdadeiro zero parâmetros por isso temos um modelo imparcial com maior variância.

Como você escreve que avalia as duas abordagens usando a validação cruzada, isso atenua algumas das preocupações acima. Um problema restante para o Melhor Subconjunto permanece: ele restringe alguns parâmetros a exatamente zero e permite que outros flutuem livremente. Portanto, há uma descontinuidade na estimativa, que não existe se ajustarmos o laço além de um ponto λ 0 onde um preditor p seja incluído ou excluído. Suponha que a validação cruzada produz um λ "ideal" que seja próximo de λ 0 , portanto, não temos certeza se p deve ser incluído ou não. Neste caso, eu diria que faz mais sentido para restringir o parâmetro de estimativa β pλλ0 0pλλ0 0β^patravés do laço para um valor pequeno (absoluta), em vez de, ou excluir completamente , ou deixá-la flutuar livremente, β p = β OLS p , como melhor subconjunto faz.β^p=0 0β^p=β^pOLS

Isso pode ser útil: Por que o encolhimento funciona?

Stephan Kolassa
fonte
Hmm. Eu não acho que isso responda por que o melhor subconjunto é pior que o laço (que é a principal questão aqui).
ameba diz Restabelecer Monica
@amoeba: você gostaria de elaborar?
22419 Stephan Stephanaassass
Bem, entendi a pergunta como perguntando por que o laço é preferível ao melhor subconjunto. Imagine que colocamos ambos em um loop de validação cruzada e depois ajustamos o parâmetro lasso ou encontramos o melhor subconjunto. O laço é geralmente recomendado. Entendi a pergunta como perguntando por que? (veja, por exemplo, o título do Q) e não tenho certeza de que sua resposta realmente responda a isso. Ou entendi mal sua resposta?
amoeba diz Reinstate Monica
1
λλ0 0ppλλ0 0β^p
1
Concorda que esta resposta realmente não responder à pergunta - eu adicionei a minha opinião sobre isso abaixo ...
Tom Wenseleers
11

Em princípio, se o melhor subconjunto puder ser encontrado, é realmente melhor que o LASSO, em termos de (1) selecionar as variáveis ​​que realmente contribuem para o ajuste, (2) não selecionar as variáveis ​​que não contribuem para o ajuste, (3) precisão da previsão e (4) produção de estimativas essencialmente imparciais para as variáveis ​​selecionadas. Um artigo recente que defendeu a qualidade superior do melhor subconjunto sobre o LASSO é o de Bertsimas et al (2016) "Melhor seleção de subconjunto através de uma lente de otimização moderna" . Outro mais antigo, que dá um exemplo concreto (sobre a desconvolução dos trens de espigão), em que o melhor subconjunto foi melhor que o LASSO ou o cume, é o de Rooi & Eilers (2011).

eu0 0eu1eu0 0euqa regressão penalizada pela norma com q próximo a 0 seria, em princípio, mais próxima da melhor seleção de subconjunto do que o LASSO, mas isso não é mais um problema de otimização convexa e, portanto, é bastante complicado de ajustar ).

Para reduzir o viés do LASSO, pode-se usar abordagens de várias etapas derivadas, como o LASSO adaptável (onde os coeficientes são penalizados diferencialmente com base em uma estimativa anterior de um ajuste de regressão de mínimos quadrados ou de crista) ou o LASSO relaxado (uma solução simples mínimos quadrados das variáveis ​​selecionadas pelo LASSO). Em comparação com o melhor subconjunto, o LASSO tende a selecionar um pouco demais variáveis. A melhor seleção de subconjunto é melhor, mas mais difícil de ajustar.

eu0 0fornece uma comparação extensiva do melhor subconjunto, LASSO e algumas variantes do LASSO, como o LASSO relaxado, e afirmam que o LASSO relaxado foi o que produziu a maior precisão de previsão do modelo sob a mais ampla gama de circunstâncias, ou seja, eles chegaram a uma conclusão diferente Bertsimas. Mas a conclusão sobre qual é o melhor depende muito do que você considera melhor (por exemplo, maior precisão de previsão, ou melhor em selecionar variáveis ​​relevantes e não incluir variáveis ​​irrelevantes; regressão de crista, por exemplo, normalmente seleciona muitas variáveis, mas a precisão de previsão para casos com variáveis ​​altamente colineares podem, no entanto, ser realmente boas).

Para um problema muito pequeno com três variáveis ​​como você descreve, é claro que a melhor seleção de subconjunto é a opção preferida.

Tom Wenseleers
fonte
1
O que significa "melhor" na frase "é melhor que o laço"?
Matthew Drury
1
kλkkk
Editado minha resposta um pouco para dar mais alguns detalhes ...
Tom Wenseleers
Não acho que nenhuma das respostas esteja abordando o problema da estabilidade. Como passo a passo e a regressão de todos os subconjuntos possíveis, lassoé notoriamente instável. Em outras palavras, se você inicializar todo o processo, encontrará muita arbitrariedade na lista de recursos selecionados.
Frank Harrell
Sim, as variáveis ​​selecionadas pelo LASSO podem ser instáveis, e isso é ainda mais adequado para a melhor regressão de subconjuntos - a regressão líquida elástica é um pouco melhor a esse respeito - que tende a incluir muitas variáveis, mas selecionadas de uma maneira mais maneira estável e pode fornecer uma melhor precisão de previsão sob alta colinearidade. Mas depende muito de qual é o critério mais importante para sua aplicação - precisão da previsão, taxa de falsos positivos da inclusão de variáveis ​​irrelevantes ou taxa de falsos negativos da não inclusão de variáveis ​​altamente relevantes ...
Tom Wenseleers