Por que o encolhimento funciona?

55

Para resolver problemas de seleção de modelos, vários métodos (LASSO, regressão de crista, etc.) reduzirão os coeficientes das variáveis ​​preditivas em direção a zero. Estou procurando uma explicação intuitiva sobre por que isso melhora a capacidade preditiva. Se o verdadeiro efeito da variável foi realmente muito grande, por que a redução do parâmetro não resulta em uma previsão pior?

aspirante a estatístico
fonte

Respostas:

48

Grosso modo, existem três fontes diferentes de erro de previsão:

  1. o viés do seu modelo
  2. a variação do seu modelo
  3. variação inexplicável

Não podemos fazer nada sobre o ponto 3 (exceto tentar estimar a variação inexplicável e incorporá-la em nossas densidades preditivas e intervalos de previsão). Isso nos deixa com 1 e 2.

Se você realmente tem o modelo "certo", digamos que as estimativas dos parâmetros OLS serão imparciais e terão uma variação mínima entre todos os estimadores imparciais (lineares) (eles são AZUIS). As previsões de um modelo OLS serão as melhores previsões imparciais não lineares (BLUPs). Isso soa bem.

No entanto, verifica-se que, embora tenhamos previsões imparciais e variação mínima entre todas as previsões imparciais, a variação ainda pode ser bastante grande. Mais importante, às vezes podemos introduzir "um pouco" de viés e, ao mesmo tempo, economizar "muita" variação - e, ao acertar a troca, podemos obter um erro de previsão mais baixo com um modelo tendencioso (variação menor) do que com um viés ( maior variância) um. Isso é chamado de "troca de viés e variação", e essa pergunta e suas respostas são esclarecedoras: quando um estimador tendencioso é preferível a um imparcial?

E a regularização como o laço, a regressão da cordilheira, a rede elástica e assim por diante fazem exatamente isso. Eles puxam o modelo para zero. (As abordagens bayesianas são semelhantes - elas puxam o modelo para as anteriores.) Assim, os modelos regularizados serão enviesados ​​em comparação com os modelos não regularizados, mas também apresentam uma variação menor. Se você escolher seu direito de regularização, o resultado será uma previsão com um erro menor.

Se você procurar "regularização de troca de viés e variação" ou algo semelhante, poderá pensar um pouco. Esta apresentação, por exemplo, é útil.

λλλλde modo que o modelo seja o modelo zero. Sempre mantenha seus quantificadores retos.) No entanto, o modelo zero também terá um viés gigante. Afinal, ele não se importa com as observações reais.

λ

(Estou escrevendo um pequeno artigo sobre isso, que espero seja bastante acessível. Adicionarei um link assim que estiver disponível.)

S. Kolassa - Restabelecer Monica
fonte
4
Parece que a peça crucial do quebra-cabeça é: por que os métodos de contração diminuem a variação? (Que eles introduzam algum viés é mais ou menos óbvio.) Você simplesmente afirma que sim; você pode fornecer alguma intuição para isso?
Ameba diz Reinstate Monica
2
@ Stephan Kolassa Então, a adição do termo de penalização, responsável pelo tamanho dos coeficientes, adiciona um pouco de viés, mas reduz a variabilidade, porque penaliza coeficientes grandes, que geralmente terão mais variabilidade do que coeficientes menores. Isso está correto? Então, em última análise, não estamos tão preocupados em obter o valor "correto" para qualquer coeficiente em particular, estamos apenas interessados ​​na capacidade preditiva geral do modelo?
aspiringstatistician
2
@aspiringstatistician: Sua segunda frase está correta. (Lembre-se de George Box sobre modelos "errados, mas úteis".) Não me preocuparia tanto se estimativas grandes de parâmetros são mais reduzidas do que pequenas. Primeiro, isso dependerá da padronização. Segundo, se seus grandes valores de parâmetro forem bem estimados (ou seja, com baixo erro), eles não serão necessariamente muito reduzidos. A regularização "prefere" reduzir os parâmetros mal definidos, ou seja, que apresentam uma alta variação.
S. Kolassa - Restabelece Monica
3
+1. Boa sorte com o papel! @aspiringstatistician: Muito boa observação sobre o encolhimento não se preocupando em obter o modelo correto; isso é exatamente correto (e vale a pena contemplar): o modelo especificado corretamente pode ter pior capacidade preditiva do que o modelo regularizado e "menos verdadeiro" (veja o exemplo do apêndice na página 307 deste artigo ).
Ameba diz Reinstate Monica
7
+1. Só queria acrescentar que, embora a pergunta fosse sobre a intuição por trás de modelos regularizados, parece um pouco incompleto sem mencionar a derivação bayesiana desses modelos. Por exemplo, ao comparar a regressão de cordilheira com o MLE simples, na maioria das aplicações parece-me natural pensar no efeito extraído de uma distribuição normal, em oposição a uma distribuição uniforme (imprópria). Portanto, ver essas técnicas como casos especiais de estimativa de MAP deixa claro por que alguém escolheria a regressão de crista.
Jlimahaverford #
10

p3

Leia esta resposta para mais informações. Aparentemente, o paradoxo de Stein está relacionado ao conhecido teorema de que um processo de movimento browiano em 3 ou mais dimensões é não recorrente (vagueia por todo o lugar sem retornar à origem), enquanto os brownianos de 1 e 2 dimensões são recorrentes.

O paradoxo de Stein se mantém independentemente do que você encolher, embora na prática seja melhor se você encolher para os verdadeiros valores dos parâmetros. É isso que os bayesianos fazem. Eles acham que sabem onde está o verdadeiro parâmetro e encolhem em direção a ele. Então eles afirmam que Stein valida sua existência.

É chamado de paradoxo precisamente porque desafia nossa intuição. No entanto, se você pensar no movimento browniano, a única maneira de obter um movimento browniano 3D para retornar à origem seria impor uma penalidade de amortecimento nas etapas. Um estimador de contração também impõe uma espécie de amortecedor nas estimativas (reduz a variação), e é por isso que funciona.

Placidia
fonte
Você tem uma referência para a conexão entre o paradoxo de Stein e os processos brownianos?
Kjetil b halvorsen
11
Siga o meu link em "Leia esta resposta para obter mais informações". Há um link nessa resposta para um documento que faz a conexão.
Placidia
os estimadores de bayes são admissíveis pelo teorema completo da classe: não tem nada a ver diretamente com o estimador JS. No entanto, o resultado de JS dominar a média amostral tornou as pessoas mais interessadas em estudar os estimadores de bayes. (Estou contestar o pedido que Bayesians "alegação de que Stein valida sua existência.")
user795305