Intuição por trás do porquê do paradoxo de Stein se aplicar apenas em dimensões

46

O exemplo de Stein mostra que a estimativa de máxima verossimilhança de n variáveis ​​normalmente distribuídas com médias μ1,,μn e variâncias 1 é inadmissível (sob uma função de perda quadrada) se n3 . Para uma prova clara, consulte o primeiro capítulo de Inferência em larga escala: Métodos empíricos de Bayes para estimativa, teste e previsão por Bradley Effron.

xN(μ,1)Ex2μ2+n

Minha pergunta é: que propriedade do espaço n dimensional (para n3 ) falta R2 que facilita o exemplo de Stein? As respostas possíveis podem ser sobre a curvatura da esfera n , ou algo completamente diferente.

Em outras palavras, por que o MLE é admissível em R2 ?


Editar 1: em resposta à @mpiktas, preocupe-se com o 1,31, a partir do 1,30:

Eμ(zμ^2)=Eμ(S(N2S)2)=Eμ((N2)2S).

μi^=(1N2S)zi
tão
Eμ(μi^zi)=Eμ(1N2S+2zi2S2).
Portanto, temos:

2i=1NEμ(μi^zi)=2N2Eμ(N(N2)S)+4Eμ((N2)S)=2NEμ2(N2)2S.

Edit 2 : Neste artigo , Stein prova que o MLE é admissível para N=2 .

Har
fonte
4
@mpiktas Não é tão inaplicável quanto parece. A situação é semelhante a uma ANOVA após aplicarmos uma redução de suficiência. Isso sugere que as estimativas usuais da ANOVA das médias do grupo são inadmissíveis, desde que tentemos estimar as médias de mais de três grupos (o que é verdade). Eu recomendaria olhar para as provas de que o MLE é admissível para e ver onde elas falham ao tentar estender para vez de apenas olhar para as provas de que o estimador de Stein faz o que afirma fazer, o que é fácil uma vez. você realmente tem o estimador em mente. N=1,2N=3
cara
2
... e saiba usar o Lema de Stein. Eu acho que é realmente um pouco menos direto do que eu pensava 6 minutos atrás.
cara
2
Concordo. Você tem boas referências para isso (além do artigo original). Achei o artigo original de Stein excessivamente computacional e esperava que alguém tivesse desenvolvido um método diferente nos últimos cinquenta anos.
Har
2
A prova que me ensinaram foi a de Brown e Hwang, de 1983, que utiliza um método sugerido por Blyth no início dos anos 50, acredito. É bastante geral (mais geral que o resultado de Stein, pois funciona para a família exponencial) e, acredito, bastante diferente de Stein. Mas não é trivial.
cara
2
@Har ótima pergunta! (+1)
suncoolsu

Respostas:

43

A dicotomia entre os casos e para a admissibilidade do MLE da média de uma variável aleatória normal multivariada dimensional é certamente chocante.d<3d3d

Há outro exemplo muito famoso em probabilidade e estatística em que há uma dicotomia entre os casos e . Esta é a recorrência de uma caminhada aleatória simples na rede . Ou seja, a caminhada aleatória simples dimensional é recorrente em 1 ou 2 dimensões, mas é transitória em dimensões. O analógico de tempo contínuo (na forma de movimento browniano) também é válido.d<3d3Zddd3

Acontece que os dois estão intimamente relacionados.

Larry Brown provou que as duas perguntas são essencialmente equivalentes. Ou seja, o melhor estimador invariante de um vetor médio normal multivariado dimensional é admissível se e somente se o movimento browniano dimensional for recorrente.μ^μ^(X)=Xdd

De fato, seus resultados vão muito além. Para qualquer estimador sensato (isto é, Bayes generalizado) com risco limitado (generalizado) , existe uma difusão dimensional explícita (!) Correspondente, de modo que o estimador é admissível se e somente se a difusão correspondente for recorrente.μ~μ~(X)L2dμ~

A média local desta difusão é essencialmente a discrepância entre os dois estimadores, ou seja, e a covariância da difusão é . A partir disso, é fácil ver que, para o caso do MLE , recuperamos o movimento browniano (redimensionado).μ~μ^2Iμ~=μ^=X

Assim, em certo sentido, podemos ver a questão da admissibilidade através das lentes dos processos estocásticos e usar propriedades bem estudadas das difusões para chegar às conclusões desejadas.

Referências

  1. L. Brown (1971). Estimadores admissíveis, difusões recorrentes e problemas insolúveis em valores de fronteira . Ann. Matemática. Estado. vol. 42, n. 3, pp. 855-903.
  2. RN Bhattacharya (1978). Critérios para recorrência e existência de medidas invariantes para difusões multidimensionais . Ann. Prob. vol. 6, n. 4, 541-553.
cardeal
fonte
2
Na verdade, algo assim é o que eu esperava. Uma conexão com outro campo da matemática (seja geometria diferencial ou processos estocásticos) que mostra que a admissibilidade para não foi apenas um acaso. Ótima resposta! n=2
Har
Inspirado por sua resposta, forneci alguns detalhes e também adicionar uma explicação geométrica em resposta a este problema na MO: mathoverflow.net/questions/93745/...
Henry.L
21

@cardinal deu uma ótima resposta (+1), mas a questão toda permanece misteriosa, a menos que alguém esteja familiarizado com as provas (e eu não estou). Portanto, acho que permanece a pergunta sobre qual é uma razão intuitiva para o paradoxo de Stein não aparecer em e .RR2

Acho muito útil uma perspectiva de regressão oferecida em Stephen Stigler, 1990, Uma perspectiva galtoniana sobre estimadores de encolhimento . Considere medições independentes , cada uma medindo alguns subjacentes (não observados) e amostrados em . Se de alguma forma soubéssemos , poderíamos fazer um gráfico de dispersão de :XiθiN(θi,1)θi(Xi,θi)

Paradoxo de Stein: perspectiva de regressão

A linha diagonal corresponde ao ruído zero e estimativa perfeita; na realidade, o ruído é diferente de zero e, portanto, os pontos são deslocados da linha diagonal na direção horizontal . Correspondentemente, pode ser visto como uma linha de regressão de em . No entanto, conhecemos e queremos estimar , portanto, devemos considerar uma linha de regressão de em - que terá uma inclinação diferente, inclinada horizontalmente , conforme mostrado na figura (linha tracejada).θ=Xθ=XXθXθθX

Citando o artigo de Stigler:

Essa perspectiva galtoniana sobre o paradoxo de Stein a torna quase transparente. Os estimadores "comuns" são derivados da linha de regressão teórica de em . Essa linha seria útil se nosso objetivo fosse prever de , mas nosso problema é o inverso, ou seja, prever de usando a soma dos erros quadráticos como um critério. Para esse critério, os estimadores lineares ótimos são dados pela linha de regressão de mínimos quadrados de emθ^i0=XiXθXθθX(θiθ^i)2θX, e os estimadores de James-Stein e Efron-Morris são eles próprios estimadores desse estimador linear ótimo. Os estimadores "comuns" são derivados da linha de regressão incorreta, os estimadores de James-Stein e Efron-Morris são derivados de aproximações à linha de regressão correta.

E agora vem a parte crucial (ênfase adicionada):

Podemos até ver por que é necessário: se ou , a linha dos mínimos quadrados de em deve passar pelos pontos e, portanto, para ou , o duas linhas de regressão (de em e de em ) devem concordar em cada .k3k=12θX(Xi,θi)k=12XθθXXi

Eu acho que isso deixa muito claro o que há de especial em e .k=1k=2

ameba diz Restabelecer Monica
fonte