Seja denotado a mediana e denotado a média, de uma amostra aleatória de tamanho de uma distribuição que é . Como posso calcular ?Y
Intuitivamente, devido à suposição de normalidade, faz sentido afirmar que e, de fato, essa é a resposta correta. Isso pode ser mostrado rigorosamente?E ( Y | ˉ X = ˉ x ) = ˉ x
Meu pensamento inicial foi abordar esse problema usando a distribuição normal condicional, que geralmente é um resultado conhecido. O problema é que, como eu não conheço o valor esperado e, consequentemente, a variação da mediana, precisaria calcular aqueles que usam a estatística ordem. Mas isso é muito complicado e eu prefiro não ir a menos que seja absolutamente necessário. k + 1
fonte
Respostas:
Deixe denotam a amostra original e o vector aleatório com entradas . Então é centralizado normalmente (mas suas entradas não são independentes, como pode ser visto pelo fato de que sua soma é zero com probabilidade total). Como funcional linear de , o vector de é normal, portanto, o cálculo das suas sufixos matriz covariância para mostrar que é independente de .XX ZZ Zk=Xk−ˉXZk=Xk−X¯ ZZ XX (Z,ˉX)(Z,X¯) ZZ ˉXX¯
Passando para , vê-se que , onde é a mediana de . Em particular, depende de somente, portanto, é independente de , e a distribuição de é simétrica, portanto, é centralizada.YY Y=ˉX+TY=X¯+T TT ZZ TT ZZ TT ˉXX¯ ZZ TT
Finalmente,E(Y∣ˉX)=ˉX+E(T∣ˉX)=ˉX+E(T)=ˉX.
fonte
A mediana da amostra é uma estatística de ordem e tem uma distribuição não normal; portanto, a distribuição de amostra finita conjunta da mediana da amostra e da média da amostra (que tem uma distribuição normal) não seria normal bivariada. Recorrendo a aproximações, assintoticamente o seguinte vale (veja minha resposta aqui ):
√n[(ˉXnYn)−(μv)]→LN[(00),Σ]
com
Σ=(σ2E(|X−v|)[2f(v)]−1E(|X−v|)[2f(v)]−1[2f(v)]−2)
onde é a média da amostra e a média da população, é a mediana da amostra e a mediana da população, é a densidade de probabilidade das variáveis aleatórias envolvidas e é a variância. ˉXnX¯n μμ YnYn vv f()f() σ2σ2
Então, aproximadamente, para amostras grandes, sua distribuição conjunta é normal bivariada, então temos que
E(Yn∣ˉXn=ˉx)=v+ρσvσˉX(ˉx−μ)
onde é o coeficiente de correlação.ρρ
Manipulando a distribuição assintótica para se tornar a distribuição conjunta de amostra grande aproximada da média e mediana da amostra (e não das quantidades padronizadas), temos ρ=1nE(|X−v|)[2f(v)]−11nσ[2f(v)]−1=E(|X−v|)σ
Então, E(Yn∣ˉXn=ˉx)=v+E(|X−v|)σ[2f(v)]−1σ(ˉx−μ)
Temos que devido à simetria da densidade normal, então chegamos a2f(v)=2/σ√2π2f(v)=2/σ2π−−√
E(Yn∣ˉXn=ˉx)=v+√π2E(|X−μσ|)(ˉx−μ)
onde usamos . Agora, a variável padronizada é um normal padrão, portanto, seu valor absoluto é uma distribuição semi-normal com valor esperado igual a (uma vez que a variação subjacente é unidade). entãov=μv=μ √2/π2/π−−−√
E(Yn∣ˉXn=ˉx)=v+√π2√2π(ˉx−μ)=v+ˉx−μ=ˉx
fonte
A resposta é .ˉxx¯
Deixe ter uma distribuição multivariada para a qual todos os marginais são simétricos em relação a um valor comum . (Não importa se são independentes ou mesmo se são distribuídos de forma idêntica.) Defina como a média aritmética de escreva para o vetor de resíduos. A suposição de simetria em implica que a distribuição de é simétrica em torno de ; isto é, quando for qualquer evento,x=(x1,x2,…,xn)x=(x1,x2,…,xn) FF μμ ˉxx¯ xi,xi, ˉx=(x1+x2+⋯+xn)/nx¯=(x1+x2+⋯+xn)/n x−ˉx=(x1−ˉx,x2−ˉx,…,xn−ˉx)x−x¯=(x1−x¯,x2−x¯,…,xn−x¯) FF x−ˉxx−x¯ 00 E⊂RnE⊂Rn
PrF(x−ˉx∈E)=PrF(x−ˉx∈−E).
A aplicação do resultado generalizado em /stats//a/83887 mostra que a mediana de tem uma distribuição simétrica em torno de . Supondo que sua expectativa exista (o que certamente ocorre quando as distribuições marginais de são normais), essa expectativa deve ser (porque a simetria implica que ela é igual a seu próprio negativo).x−ˉxx−x¯ 00 xixi 00
Agora, como subtrair o mesmo valor de cada conjunto de valores não muda sua ordem, (a mediana do ) é igual a mais a mediana de . Consequentemente, sua expectativa condicional em é igual à expectativa de condicional em , mais . O último obviamente é enquanto o primeiro é porque a expectativa incondicional é . A soma deles é QED.ˉxx¯ YY xiˉxx−ˉxˉxx−ˉxˉxE(ˉx | ˉx)ˉx00ˉx,
fonte
Isso é mais simples do que as respostas acima. A média da amostra é uma estatística completa e suficiente (quando a variação é conhecida, mas nossos resultados não dependem da variação, portanto, também será válido na situação em que a variação for desconhecida). Então o Rao-Blackwell, juntamente com os teoremas de Lehmann-Scheffe (ver wikipedia ...), implicará que a expectativa condicional da mediana, dada a média aritmética, é o estimador imparcial da variação mínima única da expectativa . Mas sabemos que essa é a média aritmética, daí o resultado segue. μ
Também usamos que a mediana é um estimador imparcial, que segue da simetria.
fonte