Já existe um post neste site falando sobre o mesmo problema: Por que o encolhimento funciona?
Mas, embora as respostas sejam populares, não acredito que a essência da questão seja realmente abordada. É bastante claro que a introdução de algum viés na estimativa reduz a variação e pode melhorar a qualidade da estimativa. Contudo:
1) Por que o dano causado pela introdução do viés é menos comparado ao ganho de variação?
2) Por que isso sempre funciona? Por exemplo, no caso de regressão de Ridge: o teorema da existência
3) O que há de tão interessante em 0 (a origem)? Claramente, podemos encolher em qualquer lugar que quisermos (ou seja, estimador de Stein ), mas será que vai funcionar tão bem quanto a origem?
4) Por que vários esquemas de codificação universal preferem um número menor de bits em torno da origem? Essas hipóteses são simplesmente mais prováveis?
São esperadas respostas com referências a teoremas comprovados ou resultados estabelecidos.
fonte
Respostas:
Não precisa, mas geralmente é. Se a troca vale a pena, depende da função de perda. Mas as coisas com as quais nos preocupamos na vida real geralmente são semelhantes ao erro ao quadrado (por exemplo, nos preocupamos mais com um grande erro do que com dois erros com metade do tamanho).
Como um contra-exemplo - imagine que, para admissões em faculdades, reduzimos um pouco a pontuação do SAT das pessoas em relação ao SAT médio para a demografia (conforme definido). Se feito corretamente, isso reduzirá a variação e o erro quadrático médio das estimativas de (algum tipo de) capacidade da pessoa ao introduzir viés. A maioria das pessoas argumentaria que essa troca é inaceitável.
Eu acho que isso ocorre porque geralmente reduzimos coeficientes ou estimativas de efeito. Há razões para acreditar que a maioria dos efeitos não é grande (veja, por exemplo, a opinião de Andrew Gelman ). Uma maneira de dizer isso é que um mundo em que tudo influencia tudo com um efeito forte é um mundo violento e imprevisível. Como nosso mundo é previsível o suficiente para nos permitir viver uma vida longa e construir civilizações semi-estáveis, segue-se que a maioria dos efeitos não é grande.
Como a maioria dos efeitos não é grande, é útil reduzir indevidamente os poucos realmente grandes, ao mesmo tempo em que diminui corretamente as cargas de efeitos desprezíveis.
Acredito que isso seja apenas uma propriedade do nosso mundo e você provavelmente poderá construir mundos autoconsistentes onde o encolhimento não é prático (provavelmente fazendo do erro quadrático médio uma função de perda impraticável). Simplesmente não é o mundo em que vivemos.
Por outro lado, quando pensamos no encolhimento como uma distribuição anterior na análise bayesiana, há casos em que o encolhimento a 0 é ativamente prejudicial na prática.
Um exemplo é a escala de comprimento nos Processos Gaussianos (onde 0 é problemático). A recomendação no manual de Stan é usar um prior que coloque peso desprezível próximo de zero, ou seja, "efetivamente" encolhendo "pequenos valores para longe de zero. Da mesma forma, os antecedentes recomendados para dispersão na distribuição binomial negativa diminuem efetivamente para zero. Por último, mas não menos importante, sempre que a distribuição normal é parametrizada com precisão (como no INLA), é útil usar gama inversa ou outras distribuições anteriores que se afastam do zero.
fonte
Ridge, laço e rede elástica são semelhantes aos métodos bayesianos com priorizados centrados no zero - veja, por exemplo, Statistical Learning with Sparsity de Hastie, Tibshirani e Wainwright, seção
2.9 Lq Penalties and Bayes Estimates
: "Há também uma visão bayesiana desses estimadores. ... Isso significa que a estimativa do laço é o estimador Bayesiano de MAP (maximum aposteriori) usando um anterior de Laplaciano. "Uma maneira de responder à sua pergunta (
what's so special about zero?
) é que os efeitos que estamos estimando são zero em média e tendem a ser pequenos (ou seja, nossos prévios devem estar centrados em torno de zero). As estimativas de redução em direção a zero são então ideais no sentido bayesiano, e o laço, as cordas e as redes elásticas podem ser pensadas através dessa lente.fonte