Para que distribuições (simétricas) a amostra significa um estimador mais eficiente do que a mediana da amostra?

17

Trabalhei com a crença de que a mediana da amostra é uma medida de tendência central mais robusta do que a média da amostra, uma vez que ignora valores extremos. Portanto, fiquei surpreso ao saber (na resposta a outra pergunta ) que, para amostras retiradas de uma distribuição normal, a variação da média da amostra é menor que a variação da mediana da amostra (pelo menos para grande ). $n$

Eu entendo matematicamente por que isso é verdade. Existe uma maneira "filosófica" de ver isso que ajudaria na intuição sobre quando usar a mediana em vez da média para outras distribuições?

Existem ferramentas matemáticas que ajudam a responder rapidamente à pergunta para uma distribuição específica?

distributions median intuition mean efficiency Josh Brown Kramer
fonte

20

Vamos supor que restringimos a consideração a distribuições simétricas onde a média e a variância são finitas (então o Cauchy, por exemplo, é excluído da consideração).

Além disso, vou me limitar inicialmente a casos unimodais contínuos e, de fato, principalmente a situações "agradáveis" (embora eu possa voltar mais tarde e discutir alguns outros casos).

A variação relativa depende do tamanho da amostra. É comum discutir a razão ( vezes as) das variações assintóticas, mas devemos ter em mente que em amostras menores, a situação será um pouco diferente. (A mediana às vezes é notavelmente melhor ou pior do que o seu comportamento assintótico sugeriria. Por exemplo, no normal com ela tem uma eficiência de cerca de 74% em vez de 63%. O comportamento assintótico é geralmente um bom guia em condições moderadas. tamanhos de amostra). $n$ $n=3$

Os assintóticos são bastante fáceis de lidar:

Média: variância = . $n\times$ $\sigma^2$

Mediana : variance = onde é a altura da densidade na mediana. $n\times$ $\frac{1}{[4f(m)^2]}$ $f(m)$

Portanto, se , a mediana será assintoticamente mais eficiente. $f(m)>\frac{1}{2\sigma}$

[No caso normal, , então , daí a eficiência relativa assintótica de )] $f(m)= \frac{1}{\sqrt{2\pi}\sigma}$ $\frac{1}{[4f(m)^2]}=\frac{\pi\sigma^2}{2}$ $2/\pi$

Podemos ver que a variação da mediana dependerá do comportamento da densidade muito próximo do centro, enquanto a variação da média depende da variação da distribuição original (que, em certo sentido, é afetada pela densidade em todos os lugares e em em particular, mais pela maneira como se comporta mais longe do centro)

Ou seja, enquanto a mediana é menos afetada por valores discrepantes do que a média, e geralmente vemos que ela apresenta uma variação menor do que a média quando a distribuição é pesada (o que produz mais discrepantes), o que realmente impulsiona o desempenho do mediana é inliers . Muitas vezes acontece que (para uma variação fixa) há uma tendência de os dois se unirem.

Ou seja, em termos gerais, à medida que a cauda fica mais pesada, há uma tendência para (com um valor fixo de ) a distribuição ficar "mais alta" ao mesmo tempo (mais kurtótica, em um sentido amplo). No entanto, isso não é uma coisa certa - tende a ser o caso em uma ampla gama de densidades comumente consideradas, mas nem sempre é válido. Quando for mantida, a variação da mediana será reduzida (porque a distribuição tem mais probabilidade na vizinhança imediata da mediana), enquanto a variação da média é mantida constante (porque corrigimos ). $\sigma^2$ $\sigma^2$

Portanto, em uma variedade de casos comuns, a mediana geralmente tende a se sair "melhor" do que a média quando a cauda é pesada (mas devemos ter em mente que é relativamente fácil construir contra-exemplos). Portanto, podemos considerar alguns casos, o que pode nos mostrar o que vemos com frequência, mas não devemos ler muito neles, porque a cauda mais pesada não combina universalmente com pico mais alto.

Sabemos que a mediana é cerca de 63,7% tão eficiente (para grande) quanto a média no normal. $n$

Que tal, digamos, uma distribuição logística , que como o normal é aproximadamente parabólica em relação ao centro, mas tem caudas mais pesadas (quando se torna grande, elas se tornam exponenciais). $x$

Se considerarmos o parâmetro de escala como 1, a logística possui variação e altura na mediana de 1/4, então . A razão de variâncias é então portanto, em amostras grandes, a mediana é aproximadamente 82% tão eficiente quanto a média. $\pi^2/3$ $\frac{1}{4f(m)^2}=4$ $\pi^2/12\approx 0.82$

Vamos considerar duas outras densidades com caudas exponenciais, mas com picos diferentes.

Primeiro, a distribuição secante hiperbólica ( ) $\text{sech}$ , para a qual o formulário padrão possui variação 1 e altura no centro de ; portanto, a proporção de variações assintóticas é 1 (os dois são igualmente eficiente em grandes amostras). No entanto, em amostras pequenas, a média é mais eficiente (sua variação é de cerca de 95% da mediana quando , por exemplo). $\frac{1}{2}$ $n=5$

Aqui podemos ver como, à medida que progredimos nessas três densidades (mantendo a variação constante), a altura na mediana aumenta:

insira a descrição da imagem aqui

Podemos fazê-lo ir ainda mais alto? De fato nós podemos. Considere, por exemplo, o duplo exponencial . O formulário padrão tem variação 2 e a altura na mediana é (portanto, se escalarmos para a variação de unidade como no diagrama, o pico será de , logo acima de 0,7). A variação assintótica da mediana é metade da média. $\frac{1}{2}$ $\frac{1}{\sqrt{2}}$

Se tornarmos a distribuição ainda mais alta para uma dada variação (talvez tornando a cauda mais pesada que a exponencial), a mediana pode ser muito mais eficiente (relativamente falando) ainda. Realmente não há limite para o quão alto esse pico pode ir.

Se, em vez disso, tivéssemos usado exemplos como as distribuições t, efeitos amplamente semelhantes seriam vistos, mas a progressão seria diferente; o ponto de cruzamento está um pouco abaixo de df (na verdade, em torno de 4,68) - para df menor a mediana é mais eficiente, para df grande a média é. $\nu=5$

...

Em tamanhos de amostra finitos, às vezes é possível calcular explicitamente a variação da distribuição da mediana. Onde isso não for viável - ou mesmo inconveniente -, podemos usar a simulação para calcular a variação da mediana (ou a proporção da variação *) nas amostras aleatórias retiradas da distribuição (que foi o que eu fiz para obter as pequenas figuras acima) )

* Embora muitas vezes não precisemos realmente da variação da média, já que podemos calculá-la se soubermos a variação da distribuição, pode ser mais computacionalmente eficiente fazê-lo, uma vez que age como uma variável de controle (a média e mediana são frequentemente bastante correlacionadas).

Glen_b -Reinstate Monica
fonte

1

A mediana geralmente será melhor que a média se houver caudas pesadas, enquanto a média será melhor com caudas leves. Um exemplo concreto interessante é a distribuição exponencial dupla (ou Laplace) https://en.wikipedia.org/wiki/Laplace_distribution com função de densidade com expectativa e variação 2. Seja uma amostra de iid. Então, para amostras grandes, a média aritmética terá uma distribuição normal (aproximadamente) com variação (exata) , enquanto a mediana terá uma distribuição normal assintótica com variação

f (x) = \frac{1}{2} e^{- | x - μ |}, - \infty < x < \infty

$f(x) = \frac12 e^{-|x-\mu|} , \quad -\infty < x < \infty$

μ

$\mu$

X_{1}, X_{2}, \dots, X_{n}

$X_1, X_2, \dotsc , X_n$

2 / n

$2/n$

\frac{1}{4 n f (μ)^{2}} = \frac{1}{4 n / 4} = 1 / n < 2 / n

$\frac1{4 n f(\mu)^2} = \frac1{4 n / 4} = 1/n < 2/n$ , então a diferença é bastante grande.

Para a distribuição normal (com ), obtemos a comparação oposta, a média aritmética tem variação (exata) enquanto a mediana tem variação (aproximadamente, grande ) $\sigma^2 = 1$ $1/n$ $n$ $\frac1{4 n (1/\sqrt{2\pi})^2} = \frac{\pi}{2 n} \approx 1.57/n > 1/n$

kjetil b halvorsen
fonte

Para que distribuições (simétricas) a amostra significa um estimador mais eficiente do que a mediana da amostra?

Respostas: