O exemplo de Stein mostra que a estimativa de máxima verossimilhança de variáveis normalmente distribuídas com médias e variâncias é inadmissível (sob uma função de perda quadrada) se . Para uma prova clara, consulte o primeiro capítulo de Inferência em larga escala: Métodos empíricos de Bayes para estimativa, teste e previsão por Bradley Effron.
Minha pergunta é: que propriedade do espaço dimensional (para ) falta que facilita o exemplo de Stein? As respostas possíveis podem ser sobre a curvatura da esfera , ou algo completamente diferente.
Em outras palavras, por que o MLE é admissível em ?
Editar 1: em resposta à @mpiktas, preocupe-se com o 1,31, a partir do 1,30:
tão
Portanto, temos:
Edit 2 : Neste artigo , Stein prova que o MLE é admissível para .
Respostas:
A dicotomia entre os casos e para a admissibilidade do MLE da média de uma variável aleatória normal multivariada dimensional é certamente chocante.d<3 d≥3 d
Há outro exemplo muito famoso em probabilidade e estatística em que há uma dicotomia entre os casos e . Esta é a recorrência de uma caminhada aleatória simples na rede . Ou seja, a caminhada aleatória simples dimensional é recorrente em 1 ou 2 dimensões, mas é transitória em dimensões. O analógico de tempo contínuo (na forma de movimento browniano) também é válido.d<3 d≥3 Zd d d≥3
Acontece que os dois estão intimamente relacionados.
Larry Brown provou que as duas perguntas são essencialmente equivalentes. Ou seja, o melhor estimador invariante de um vetor médio normal multivariado dimensional é admissível se e somente se o movimento browniano dimensional for recorrente.μ^≡μ^(X)=X d d
De fato, seus resultados vão muito além. Para qualquer estimador sensato (isto é, Bayes generalizado) com risco limitado (generalizado) , existe uma difusão dimensional explícita (!) Correspondente, de modo que o estimador é admissível se e somente se a difusão correspondente for recorrente.μ~≡μ~(X) L2 d μ~
A média local desta difusão é essencialmente a discrepância entre os dois estimadores, ou seja, e a covariância da difusão é . A partir disso, é fácil ver que, para o caso do MLE , recuperamos o movimento browniano (redimensionado).μ~−μ^ 2I μ~=μ^=X
Assim, em certo sentido, podemos ver a questão da admissibilidade através das lentes dos processos estocásticos e usar propriedades bem estudadas das difusões para chegar às conclusões desejadas.
Referências
fonte
@cardinal deu uma ótima resposta (+1), mas a questão toda permanece misteriosa, a menos que alguém esteja familiarizado com as provas (e eu não estou). Portanto, acho que permanece a pergunta sobre qual é uma razão intuitiva para o paradoxo de Stein não aparecer em e .R R2
Acho muito útil uma perspectiva de regressão oferecida em Stephen Stigler, 1990, Uma perspectiva galtoniana sobre estimadores de encolhimento . Considere medições independentes , cada uma medindo alguns subjacentes (não observados) e amostrados em . Se de alguma forma soubéssemos , poderíamos fazer um gráfico de dispersão de :Xi θi N(θi,1) θi (Xi,θi)
A linha diagonal corresponde ao ruído zero e estimativa perfeita; na realidade, o ruído é diferente de zero e, portanto, os pontos são deslocados da linha diagonal na direção horizontal . Correspondentemente, pode ser visto como uma linha de regressão de em . No entanto, conhecemos e queremos estimar , portanto, devemos considerar uma linha de regressão de em - que terá uma inclinação diferente, inclinada horizontalmente , conforme mostrado na figura (linha tracejada).θ=X θ=X X θ X θ θ X
Citando o artigo de Stigler:
E agora vem a parte crucial (ênfase adicionada):
Eu acho que isso deixa muito claro o que há de especial em e .k=1 k=2
fonte