Para que distribuições (simétricas) a amostra significa um estimador mais eficiente do que a mediana da amostra?

17

Trabalhei com a crença de que a mediana da amostra é uma medida de tendência central mais robusta do que a média da amostra, uma vez que ignora valores extremos. Portanto, fiquei surpreso ao saber (na resposta a outra pergunta ) que, para amostras retiradas de uma distribuição normal, a variação da média da amostra é menor que a variação da mediana da amostra (pelo menos para grande ).n

Eu entendo matematicamente por que isso é verdade. Existe uma maneira "filosófica" de ver isso que ajudaria na intuição sobre quando usar a mediana em vez da média para outras distribuições?

Existem ferramentas matemáticas que ajudam a responder rapidamente à pergunta para uma distribuição específica?

Josh Brown Kramer
fonte

Respostas:

20

Vamos supor que restringimos a consideração a distribuições simétricas onde a média e a variância são finitas (então o Cauchy, por exemplo, é excluído da consideração).

Além disso, vou me limitar inicialmente a casos unimodais contínuos e, de fato, principalmente a situações "agradáveis" (embora eu possa voltar mais tarde e discutir alguns outros casos).

A variação relativa depende do tamanho da amostra. É comum discutir a razão ( vezes as) das variações assintóticas, mas devemos ter em mente que em amostras menores, a situação será um pouco diferente. (A mediana às vezes é notavelmente melhor ou pior do que o seu comportamento assintótico sugeriria. Por exemplo, no normal com ela tem uma eficiência de cerca de 74% em vez de 63%. O comportamento assintótico é geralmente um bom guia em condições moderadas. tamanhos de amostra).n = 3nn=3

Os assintóticos são bastante fáceis de lidar:

Média: variância = .σ 2n×σ2

Mediana : variance = onde é a altura da densidade na mediana.1n× f(m)1[4f(m)2]f(m)

Portanto, se , a mediana será assintoticamente mais eficiente.f(m)>12σ

[No caso normal, , então , daí a eficiência relativa assintótica de )]1f(m)=12πσ 2/π1[4f(m)2]=πσ222/π

Podemos ver que a variação da mediana dependerá do comportamento da densidade muito próximo do centro, enquanto a variação da média depende da variação da distribuição original (que, em certo sentido, é afetada pela densidade em todos os lugares e em em particular, mais pela maneira como se comporta mais longe do centro)

Ou seja, enquanto a mediana é menos afetada por valores discrepantes do que a média, e geralmente vemos que ela apresenta uma variação menor do que a média quando a distribuição é pesada (o que produz mais discrepantes), o que realmente impulsiona o desempenho do mediana é inliers . Muitas vezes acontece que (para uma variação fixa) há uma tendência de os dois se unirem.

Ou seja, em termos gerais, à medida que a cauda fica mais pesada, há uma tendência para (com um valor fixo de ) a distribuição ficar "mais alta" ao mesmo tempo (mais kurtótica, em um sentido amplo). No entanto, isso não é uma coisa certa - tende a ser o caso em uma ampla gama de densidades comumente consideradas, mas nem sempre é válido. Quando for mantida, a variação da mediana será reduzida (porque a distribuição tem mais probabilidade na vizinhança imediata da mediana), enquanto a variação da média é mantida constante (porque corrigimos ).σ 2σ2σ2

Portanto, em uma variedade de casos comuns, a mediana geralmente tende a se sair "melhor" do que a média quando a cauda é pesada (mas devemos ter em mente que é relativamente fácil construir contra-exemplos). Portanto, podemos considerar alguns casos, o que pode nos mostrar o que vemos com frequência, mas não devemos ler muito neles, porque a cauda mais pesada não combina universalmente com pico mais alto.

Sabemos que a mediana é cerca de 63,7% tão eficiente (para grande) quanto a média no normal.n

Que tal, digamos, uma distribuição logística , que como o normal é aproximadamente parabólica em relação ao centro, mas tem caudas mais pesadas (quando se torna grande, elas se tornam exponenciais).x

Se considerarmos o parâmetro de escala como 1, a logística possui variação e altura na mediana de 1/4, então . A razão de variâncias é então portanto, em amostras grandes, a mediana é aproximadamente 82% tão eficiente quanto a média.1π2/314f(m)2=4π2/120,82

Vamos considerar duas outras densidades com caudas exponenciais, mas com picos diferentes.

Primeiro, a distribuição secante hiperbólica ( )sech , para a qual o formulário padrão possui variação 1 e altura no centro de ; portanto, a proporção de variações assintóticas é 1 (os dois são igualmente eficiente em grandes amostras). No entanto, em amostras pequenas, a média é mais eficiente (sua variação é de cerca de 95% da mediana quando , por exemplo).12n=5

Aqui podemos ver como, à medida que progredimos nessas três densidades (mantendo a variação constante), a altura na mediana aumenta:

insira a descrição da imagem aqui

Podemos fazê-lo ir ainda mais alto? De fato nós podemos. Considere, por exemplo, o duplo exponencial . O formulário padrão tem variação 2 e a altura na mediana é (portanto, se escalarmos para a variação de unidade como no diagrama, o pico será de , logo acima de 0,7). A variação assintótica da mediana é metade da média.1212

Se tornarmos a distribuição ainda mais alta para uma dada variação (talvez tornando a cauda mais pesada que a exponencial), a mediana pode ser muito mais eficiente (relativamente falando) ainda. Realmente não há limite para o quão alto esse pico pode ir.

Se, em vez disso, tivéssemos usado exemplos como as distribuições t, efeitos amplamente semelhantes seriam vistos, mas a progressão seria diferente; o ponto de cruzamento está um pouco abaixo de df (na verdade, em torno de 4,68) - para df menor a mediana é mais eficiente, para df grande a média é.ν=5

...

Em tamanhos de amostra finitos, às vezes é possível calcular explicitamente a variação da distribuição da mediana. Onde isso não for viável - ou mesmo inconveniente -, podemos usar a simulação para calcular a variação da mediana (ou a proporção da variação *) nas amostras aleatórias retiradas da distribuição (que foi o que eu fiz para obter as pequenas figuras acima) )

* Embora muitas vezes não precisemos realmente da variação da média, já que podemos calculá-la se soubermos a variação da distribuição, pode ser mais computacionalmente eficiente fazê-lo, uma vez que age como uma variável de controle (a média e mediana são frequentemente bastante correlacionadas).

Glen_b -Reinstate Monica
fonte
1

A mediana geralmente será melhor que a média se houver caudas pesadas, enquanto a média será melhor com caudas leves. Um exemplo concreto interessante é a distribuição exponencial dupla (ou Laplace) https://en.wikipedia.org/wiki/Laplace_distribution com função de densidade com expectativa e variação 2. Seja uma amostra de iid. Então, para amostras grandes, a média aritmética terá uma distribuição normal (aproximadamente) com variação (exata) , enquanto a mediana terá uma distribuição normal assintótica com variação

f(x)=12e-|x-μ|,-<x<
μX1,X2,...,Xn2/n14nf(μ)2=14n/4=1/n<2/n, então a diferença é bastante grande.

Para a distribuição normal (com ), obtemos a comparação oposta, a média aritmética tem variação (exata) enquanto a mediana tem variação (aproximadamente, grande )1 / n n 1σ2=11/nn14n(1/2π)2=π2n1,57/n>1/n

kjetil b halvorsen
fonte