Existe mais de uma fórmula "mediana"?

16

No meu trabalho, quando os indivíduos se referem ao valor "médio" de um conjunto de dados, eles geralmente se referem à média aritmética (ou seja, "média" ou "valor esperado"). Se eu fornecesse a média geométrica , as pessoas provavelmente pensariam que eu estava sendo malicioso ou inútil, pois a definição de "média" é conhecida antecipadamente.

Estou tentando determinar se há várias definições da "mediana" de um conjunto de dados. Por exemplo, uma das definições fornecidas por um colega para encontrar a mediana de um conjunto de dados com um número par de elementos seria:

Algoritmo 'A'

  • Divida o número de elementos por dois, arredonde para baixo.
  • Esse valor é o índice da mediana.
  • ie, para o conjunto seguinte, a mediana seria 5.
  • [4, 5, 6, 7]

Isso parece fazer sentido, embora o aspecto de arredondamento pareça um pouco arbitrário.

Algoritmo 'B'

De qualquer forma, outro colega propôs um algoritmo separado, que estava em um livro de estatísticas dele (necessidade de obter o nome e o autor):

  • Divida o número de elementos por 2 e mantenha uma cópia dos números inteiros arredondados e arredondados. Nomeie-os n_loe n_hi.
  • Tome a média aritmética dos elementos em n_loe n_hi.
  • ie, para o conjunto seguinte, a mediana seria (5+6)/2 = 5.5.
  • [4, 5, 6, 7]

Isso parece errado, pois o valor mediano, 5.5nesse caso, não está realmente no conjunto de dados original. Quando trocamos o algoritmo 'A' por 'B' em algum código de teste, ele quebrou horrivelmente (como esperávamos).

Questão

Existe um "nome" formal para essas duas abordagens para calcular a mediana de um conjunto de dados? ou seja, "mediana menor das duas" versus "mediana dos elementos do meio e criar novos dados"?

Nuvem
fonte
16
Eu nunca vi o algoritmo "A" considerado uma mediana. Não deve ser um problema que uma estatística descritiva da tendência central dos dados não esteja entre os próprios dados: afinal, a maioria dos meios também não está nos dados. Uma propriedade mais fundamental que gostaríamos que a mediana tivesse é que ela não muda quando a sequência de dados é revertida, pois ordenar dados do menor para o maior ou do maior para o menor é uma questão arbitrária de gosto. Por esse motivo, a maioria dos autores define a mediana como no algoritmo "B", porque esse é de longe o procedimento mais simples possível invariável à ordem.
whuber
3
O algoritmo @whuber 'A' às vezes é chamado de baixa mediana . Também existe, obviamente, uma alta mediana correspondente. Normalmente, a mediana é a média dos dois (que pode ou não ser um elemento do conjunto em que a mediana é calculada).
user603
8
Um bom momento e lugar para repetir o comentário de que os dois valores centrais em uma amostra ordenada com um número par de observações - como 3 e 4 em 1, 2, 3, 4, 5, 6 - devem ser considerados como comediantes (provocado independentemente por SM Stigler, R. Koenker e sem dúvida outros).
Nick Cox
3
Os dois algoritmos não estão perdendo a etapa crucial de classificar os dados?
Emil
3
Se você precisar que sua "mediana" seja sempre um elemento do conjunto de dados, talvez esteja procurando um medóide .
Ilmari Karonen 18/09/19

Respostas:

23

TL; DR - Não estou ciente de nomes específicos sendo atribuídos a diferentes estimadores de medianas da amostra. Os métodos para estimar estatísticas de amostra de alguns dados são bastante exigentes e recursos diferentes dão definições diferentes.

Em Introdução à estatística matemática de Hogg, McKean e Craig , os autores fornecem uma definição de medianas de amostras aleatórias , mas apenas no caso de haver um número ímpar de amostras! Os autores escrevem

nY(n+1)/2

YEuEu

n

O algoritmo B tem a propriedade de que metade dos dados fica acima do valor e metade dos dados fica abaixo do valor. À luz da definição da mediana de uma variável aleatória , isso parece bom.


Se um estimador em particular quebra ou não os testes de unidade é uma propriedade dos testes de unidade - os testes de unidade escritos em relação a um estimador específico não serão necessariamente válidos quando você substituir outro estimador. No caso ideal, os testes de unidade foram escolhidos porque refletem as necessidades críticas da sua organização, não por causa de um argumento doutrinário sobre definições.

Sycorax diz restabelecer Monica
fonte
2
(+1) Podemos acrescentar também que: (1) Quando os valores vêm com pesos, a definição de medianas, em princípio e na prática, deve cobrir isso também. (Implicitamente nas respostas até agora, todos os pesos são iguais, portanto, imateriais.) Embora a interpolação linear na soma acumulada de pesos seja mais simples, há situações em que outros tipos de interpolação podem fazer sentido. (2) Definições mais rigorosas de mediana geralmente pretendem cobrir distribuições discretas e contínuas e híbridas, incluindo aquelas com picos de probabilidade em algum lugar.
Nick Cox
25

O que @Sycorax diz.

De fato, existem surpreendentemente muitas definições de quantis gerais, assim também de medianas. Hyndman & Fan (1996, The American Statistician ) fornecem uma visão geral que é, AFAIK, ainda abrangente. Os diferentes tipos não têm nomes formais. Você pode simplesmente precisar ter certeza de qual tipo está usando. (Geralmente, não faz grande diferença com conjuntos de dados de tamanhos realistas.)

Observe que geralmente é aceito ter um valor que não está presente no conjunto de dados como a mediana, por exemplo, 5,5 como mediana para (4, 5, 6, 7). Este é o comportamento padrão para R:

> median(4:7)
[1] 5.5

median()Por padrão, os R's usam o tipo 7 da classificação de Hyndman & Fan.

S. Kolassa - Restabelecer Monica
fonte
6
+1 para "Geralmente não faz grande diferença com conjuntos de dados de tamanhos realistas". Vou roubar isso, em vez do meu costume "se isso fizer diferença, provavelmente você precisará de mais dados". :)
Jason
1
Se você tiver uma variável binária com valores 0, 1 (digamos) e aproximadamente 0s e 1s (média próxima a 0,5), o tamanho da amostra grande não impedirá necessariamente que a mediana relatada alterne entre 0, 0,5 e 1. Mosteller e Tukey ( Data Analysis and Regression 1977) citam distribuições fortemente bimodais e quase simétricas como casos em que a mediana pode não se comportar especialmente bem.
Nick Cox
3

Na madfunção de R , ele usa os termos "mediana baixa" para descrever seu algoritmo A, "mediana alta" para descrever arredondamentos, e apenas "mediana" para descrever seu algoritmo B (que, como outros observaram, é de longe a definição mais comum).

Curiosamente, não existe essa opção na median()função de R ! (Mas os R's quantile()têm typeum ótimo controle.)

Darren Cook
fonte