Uma estimativa imparcial da mediana

Suponha que tenhamos uma variável aleatória $X$ suportada em $[0,1]$ partir da qual podemos extrair amostras. Como podemos chegar a uma estimativa imparcial da mediana de $X$ ?

É claro que podemos gerar algumas amostras e tirar a mediana da amostra, mas entendo que isso geralmente não será imparcial.

Nota: esta questão está relacionada, mas não é idêntica, à minha última pergunta , caso em que $X$ só poderia ser amostrado aproximadamente.

sampling Robinson
fonte

Respostas:

Esse estimador não existe.

A intuição é que a mediana pode permanecer fixa enquanto mudamos livremente a densidade de probabilidade em ambos os lados, para que qualquer estimador cujo valor médio seja a mediana de uma distribuição tenha uma média diferente para a distribuição alterada, tornando-a enviesada. A exposição a seguir dá um pouco mais de rigor a essa intuição.

Nós concentrar em distribuições tendo medianas únicas , de modo que, por definição, e para todos os . Corrija um tamanho de amostra e suponha que calcule . (Basta que $F$ $m$ $F(m) \ge 1/2$ $F(x) \lt 1/2$ $x \lt m$ $n \ge 1$ $t: [0,1]^n \to [0,1]$ $m$ $t$ só pode ser limitada, mas que geralmente não se considerar seriamente estimadores que produzem valores obviamente impossível) Nós fazemos. há suposições sobre ; nem precisa ser contínuo em qualquer lugar. $t$

O significado de ser imparcial (para esse tamanho fixo de amostra) é que $t$

E_{F} [t (X_{1}, \dots, X_{n})] = m

$E_F[t(X_1, \ldots, X_n)] = m$

para qualquer amostra iid com . Um "estimador" é um com esta propriedade para todos tais . $X_i \sim F$ $t$ $F$

Suponha que exista um estimador imparcial. Derivaremos uma contradição aplicando-a a um conjunto particularmente simples de distribuições. Considere as distribuições com estas propriedades: $F = F_{x,y,m, \varepsilon}$

; $0 \le x \lt y \le 1$
; $0 \lt \varepsilon \lt (y-x)/4$
; $x + \varepsilon \lt m \lt y - \varepsilon$
; $\Pr(X = x) = \Pr(X = y) = (1-\varepsilon)/2$
; e $\Pr(m-\varepsilon \le X \le m+\varepsilon) = \varepsilon$
é uniforme em . $F$ $[m-\varepsilon, m+\varepsilon]$

Essas distribuições colocam a probabilidade em cada um de e e uma pequena quantidade de probabilidade simetricamente colocada em torno de entre e . Isso faz com que a mediana única de . (Se você está preocupado com o fato de essa não ser uma distribuição contínua, envolva-a com uma gaussiana muito estreita e trunque o resultado para $(1-\varepsilon)/2$ $x$ $y$ $m$ $x$ $y$ $m$ $F$ $[0,1]$ : o argumento não será alterado.)

Agora, para qualquer estimador mediano putativo , uma estimativa fácil mostra que está estritamente dentro de da média dos valores de , onde o variar ao longo de todas as possíveis combinações de e . No entanto, podemos variar $t$ $E[t(X_1, X_2, \ldots, X_n)]$ $\varepsilon$ $2^n$ $t(x_1, x_2, \ldots, x_n)$ $x_i$ $x$ $y$ $m$ entre e , uma mudança de pelo menos (em virtude das condições 2 e 3). Assim, existe , e daí uma distribuição correspondente , para a qual essa expectativa não é igual à mediana, QED. $x + \varepsilon$ $y - \varepsilon$ $\varepsilon$ $m$ $F_{x,y,m,\varepsilon}$

whuber
fonte

(+1) Boa prova. Você veio com isso, ou é algo que você lembrou da faculdade?

StasK

Aqui está outra prova: a maioria das variáveis aleatórias de Bernoulli tem mediana

. A estimativa de

tentativas depende apenas dos valores médios do estimador nos vértices de

com

, e o peso desses valores médios é um polinômio em

de grau

. Se este é um estimador imparcial, deve ter valor médio

para qualquer

, e há mais de

tais valores de

0

$0$

1

$1$

n

$n$

[0, 1]^{n}

$[0,1]^n$

k

$k$

p

$p$

n

$n$

1

$1$

p > 1 / 2

$p \gt 1/2$

n + 1

$n+1$

p

$p$ , so this polynomial must be constant... but it must be

0

$0$ on lower values of

p

$p$ , so it can't be unbiased there, too.

Douglas Zare

@Douglas Essa é uma ótima prova. Eu suspeito que algumas pessoas podem se sentir um pouco inquieto sobre o âmbito da sua aplicabilidade, porém, porque a mediana para uma variável de Bernoulli é um pouco especial, sendo coincidente com um dos seus dois pontos de apoio (exceto quando

). Os leitores podem ficar tentados a declarar isso como "patológico" e tentar barrar esses monstros olhando apenas para distribuições contínuas com densidades positivas em todos os lugares em seus domínios. Por isso, tive o cuidado de mostrar que tais esforços fracassarão.

p = 1 / 2

$p=1/2$

whuber

Finding an unbiased estimator without having a parametric model would be difficult! But you could use bootstrapping, and use that to correct the empirical median to get an approximately unbiased estimator.

kjetil b halvorsen
fonte

If this is impossible, is it possible to prove it? For example, if

X_{1}, X_{2}, \dots, X_{n}

$X_1, X_2, \ldots, X_n$ are independent samples from

X

$X$ then can one prove that

f (X_{1}, \dots, X_{n})

$f(X_1, \ldots, X_n)$ cannot be unbiased for any choice of

f

$f$ ?

robinson

I think kjetil is saying that in a nonparametric framework there is no method that will give an unbiased estimate for every possible distribution. But in the parametric framework you probably could. Bootstrapping a biased sample estimate can allow you to estimate the bias and adjust it to get a bootstrap estimate that is nearly unbiased. That was his suggestion for handling the problem in the nonparametric framework. Proving that an unbiased estimate is not possible would also be difficult.

Michael R. Chernick

Se você realmente quer provar que não existe um estimador imparcial, há um livro, Ferguson: "Estatística Matemática - Uma Abordagem Teórica da Decisão", que tem alguns exemplos desse tipo de coisa!

Kjetil b halvorsen

Imagino que as condições de regularidade do bootstrap sejam violadas com as funções de distribuição que o whuber considera em sua resposta. Michael, você pode comentar?

StasK

@Stas As I pointed out, my functions can be made to look very "nice" by mollifying them. They can also be generalized to mollifications of large finite mixtures of atoms. The class of such distributions is dense in all distributions on the unit interval, so I don't think bootstrap regularity would be involved here.

whuber

I believe quantile regression will give you a consistent estimator of the median. Given the model $Y = \alpha + u$ . And you want to estimate $\text{med}(y) = \text{med}(\alpha + u) = \alpha + \text{med}(u)$ since $\alpha$ is a constant. All you need is the $\text{med}(u) = 0$ which should be true so long as you have independent draws. However, as far as unbiasedness, I don't know. Medians are difficult.

Francis
fonte

See @whuber 's answer

Peter Flom - Reinstate Monica