Grosso modo, existem três fontes diferentes de erro de previsão:
- o viés do seu modelo
- a variação do seu modelo
- variação inexplicável
Não podemos fazer nada sobre o ponto 3 (exceto tentar estimar a variação inexplicável e incorporá-la em nossas densidades preditivas e intervalos de previsão). Isso nos deixa com 1 e 2.
Se você realmente tem o modelo "certo", digamos que as estimativas dos parâmetros OLS serão imparciais e terão uma variação mínima entre todos os estimadores imparciais (lineares) (eles são AZUIS). As previsões de um modelo OLS serão as melhores previsões imparciais não lineares (BLUPs). Isso soa bem.
No entanto, verifica-se que, embora tenhamos previsões imparciais e variação mínima entre todas as previsões imparciais, a variação ainda pode ser bastante grande. Mais importante, às vezes podemos introduzir "um pouco" de viés e, ao mesmo tempo, economizar "muita" variação - e, ao acertar a troca, podemos obter um erro de previsão mais baixo com um modelo tendencioso (variação menor) do que com um viés ( maior variância) um. Isso é chamado de "troca de viés e variação", e essa pergunta e suas respostas são esclarecedoras: quando um estimador tendencioso é preferível a um imparcial?
E a regularização como o laço, a regressão da cordilheira, a rede elástica e assim por diante fazem exatamente isso. Eles puxam o modelo para zero. (As abordagens bayesianas são semelhantes - elas puxam o modelo para as anteriores.) Assim, os modelos regularizados serão enviesados em comparação com os modelos não regularizados, mas também apresentam uma variação menor. Se você escolher seu direito de regularização, o resultado será uma previsão com um erro menor.
Se você procurar "regularização de troca de viés e variação" ou algo semelhante, poderá pensar um pouco. Esta apresentação, por exemplo, é útil.
λλ → ∞λλde modo que o modelo seja o modelo zero. Sempre mantenha seus quantificadores retos.) No entanto, o modelo zero também terá um viés gigante. Afinal, ele não se importa com as observações reais.
λ
(Estou escrevendo um pequeno artigo sobre isso, que espero seja bastante acessível. Adicionarei um link assim que estiver disponível.)
Leia esta resposta para mais informações. Aparentemente, o paradoxo de Stein está relacionado ao conhecido teorema de que um processo de movimento browiano em 3 ou mais dimensões é não recorrente (vagueia por todo o lugar sem retornar à origem), enquanto os brownianos de 1 e 2 dimensões são recorrentes.
O paradoxo de Stein se mantém independentemente do que você encolher, embora na prática seja melhor se você encolher para os verdadeiros valores dos parâmetros. É isso que os bayesianos fazem. Eles acham que sabem onde está o verdadeiro parâmetro e encolhem em direção a ele. Então eles afirmam que Stein valida sua existência.
É chamado de paradoxo precisamente porque desafia nossa intuição. No entanto, se você pensar no movimento browniano, a única maneira de obter um movimento browniano 3D para retornar à origem seria impor uma penalidade de amortecimento nas etapas. Um estimador de contração também impõe uma espécie de amortecedor nas estimativas (reduz a variação), e é por isso que funciona.
fonte