Usando a mediana para calcular a variância

10

Eu tenho uma variável aleatória 1-D que é extremamente assimétrica. Para normalizar essa distribuição, quero usar a mediana e não a média. minha pergunta é a seguinte: posso calcular a variação da distribuição usando a mediana na fórmula em vez da média?

ou seja, posso substituir

Var(X)=[(Ximean(X))2]/n

com

Var(X)=[(Ximedian(X))2]/n

Meu raciocínio por trás disso é que, uma vez que a variação é uma medida de propagação da tendência central de uma distribuição, não deve ser um problema, mas estou procurando validar essa lógica.

Rahul Singh
fonte
11
Centralizando suas variáveis ​​em mediana e depois dividindo-a pelo MAD (desvio absoluto mediano), você pode criar uma distribuição padronizada mediana.
Mike Hunter
4
Você consegue fazer isso! Mas acho justo chamá-lo de altamente não-padrão e sugerir que você precisa de teoria e / ou simulações para respaldar e não apenas sua intuição. Suspeito que seja menos resistente que o estimador padrão. Por exemplo, em um caso comum inclinado à direita, a mediana será menor que a média; portanto, os maiores desvios ao quadrado (da mediana) serão, portanto, ainda maiores! O ponto principal é que, se a variação não for confiável, talvez seja necessário pensar em medir a dispersão de maneira bastante diferente, em vez de versões diferentes da variação.
Nick Cox
11
Ponto ortogonal: "normalizar" significa escala de alguma forma, por exemplo (valor localização) / escala, ou significa aproximar-se do normal (gaussiano)?
Nick Cox
11
Essa abordagem é inerentemente inconsistente, porque os problemas abordados pela substituição da média pela mediana são ampliados usando a variação em vez de um estimador robusto do spread.
whuber

Respostas:

8

A média minimiza o erro ao quadrado (ou a norma L2, veja aqui ou aqui ); portanto, a escolha natural da variação para medir a distância da média é usar o erro ao quadrado (veja aqui o motivo pelo qual o fazemos). Por outro lado, a mediana minimiza o erro absoluto (norma L1), ou seja, é um valor que está no "meio" dos seus dados; portanto, a distância absoluta da mediana (chamada Desvio Absoluto Mediano ou MAD) parece ser uma melhor medida do grau de variabilidade em torno da mediana. Você pode ler mais sobre essas relações neste tópico .

Em resumo, a variação difere da MAD de como eles definem o ponto central dos seus dados e isso influencia a maneira como medimos a variação dos pontos de dados em torno deles. A quadratura dos valores faz com que os discrepantes tenham maior influência sobre o ponto central (média), enquanto que no caso da mediana, todos os pontos têm o mesmo impacto sobre ele, portanto a distância absoluta parece mais apropriada.

Isso também pode ser demonstrado por simulação simples. Se você comparar as distâncias quadradas dos valores da média e da mediana, a distância quadrada total será quase sempre menor da média do que da mediana. Por outro lado, a distância absoluta total é menor da mediana e depois da média. O código R para a realização da simulação está publicado abaixo.

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

No caso de usar mediana em vez de média na estimativa dessa "variância", isso levaria a estimativas mais altas do que com o uso da média, como é feito tradicionalmente.

A propósito, as relações das normas L1 e L2 podem ser consideradas também no contexto bayesiano, como neste tópico .

Tim
fonte