Por que o estimador de James-Stein é chamado de estimador de "retração"?

19

Eu tenho lido sobre o estimador de James-Stein. É definido, nestas notas , como

θ^=(1-p-2__X__2)X

Li a prova, mas não entendo a seguinte declaração:

Geometricamente, o estimador de James – Stein reduz cada componente de direção à origem ...X

O que significa "encolher cada componente de direção à origem" significa exatamente? Eu estava pensando em algo como que é verdade neste caso, desde que , já que \ | \ hat {\ theta} \ | = \ frac {\ | X \ | ^ 2 - (p + 2)} {\ | X \ | ^ 2} \ | X \ |.θ - 0 2 < X - 0 2 , ( p + 2 ) < X 2θ= X 2 - ( p + 2 )X

__θ^-0 0__2<__X-0 0__2,
(p+2)<X2
__θ^__=__X__2-(p+2)__X__2__X__.

É isso que as pessoas querem dizer quando dizem "encolher em direção a zero" porque, no sentido da norma eu2 , o estimador JS está mais perto de zero que X ?

Atualização em 22/09/2017 : Hoje percebi que talvez eu esteja complicando demais as coisas. Parece que as pessoas realmente querem dizer que, depois de multiplicar por algo menor que , o termo , cada componente de será menor do que costumava ser.1 X 2 - ( p + 2 )X1 X__X__2-(p+2)__X__2X

3x89g2
fonte

Respostas:

31

Às vezes, uma imagem vale mais que mil palavras, então deixe-me compartilhar uma com você. Abaixo você pode ver uma ilustração que vem do paradoxo de Steinley nas estatísticas de Bradley Efron (1977) . Como você pode ver, o que o estimador de Stein faz é mover cada um dos valores para mais perto da média geral. Torna valores maiores que a média geral menores e valores menores que a média geral maiores. Por contração, queremos dizer mover os valores para a média ou para zero em alguns casos - como regressão regularizada - que reduz os parâmetros para zero.

Ilustração do estimador de Stein de Efron (1977)

Obviamente, não se trata apenas de encolher, mas o que Stein (1956) e James e Stein (1961) provaram, é que o estimador de Stein domina o estimador de probabilidade máxima em termos de erro quadrado total,

Eμ(__μ^JS-μ__2)<Eμ(__μ^MeuE-μ__2)

onde , é o estimador de Stein e , em que ambos os estimadores são estimados na amostra . As provas são fornecidas nos documentos originais e no apêndice do documento a que você se refere. Em inglês simples, o que eles mostraram é que, se você fizer suposições simultaneamente , em termos de erro quadrático total, seria melhor encolhê-las, em comparação com a aderência às suposições iniciais.μ=(μ1,μ2,...,μp)μ^EuJSμ^EuMeuE=xEux1,x2,...,xpp>2

Finalmente, o estimador de Stein certamente não é o único estimador que fornece o efeito de encolhimento. Para outros exemplos, você pode verificar esta entrada do blog ou o referido livro de análise de dados bayesiano de Gelman et al. Você também pode verificar os tópicos sobre regressão regularizada, por exemplo, que problema os métodos de encolhimento solucionam? , ou Quando usar métodos de regularização para regressão? , para outras aplicações práticas desse efeito.

Tim
fonte
O artigo parece útil e vou ler. Atualizei minha pergunta para explicar melhor meus pensamentos. Você poderia dar uma olhada? Obrigado!
3x89g2
2
@ Tim Acho que o argumento de Misakov é legítimo, pois o estimador James-Stein aproxima o estimador de de zero que o MLE. O zero desempenha um papel central e central neste estimador e podem ser construídos estimadores de James-Stein que encolhem em direção a outros centros ou mesmo subespaços (como em George, 1986). Por exemplo, Efron e Morris (1973) encolhem em direção à média comum, que equivale ao subespaço diagonal. θ
Xian