No meu trabalho, quando os indivíduos se referem ao valor "médio" de um conjunto de dados, eles geralmente se referem à média aritmética (ou seja, "média" ou "valor esperado"). Se eu fornecesse a média geométrica , as pessoas provavelmente pensariam que eu estava sendo malicioso ou inútil, pois a definição de "média" é conhecida antecipadamente.
Estou tentando determinar se há várias definições da "mediana" de um conjunto de dados. Por exemplo, uma das definições fornecidas por um colega para encontrar a mediana de um conjunto de dados com um número par de elementos seria:
Algoritmo 'A'
- Divida o número de elementos por dois, arredonde para baixo.
- Esse valor é o índice da mediana.
- ie, para o conjunto seguinte, a mediana seria
5
. [4, 5, 6, 7]
Isso parece fazer sentido, embora o aspecto de arredondamento pareça um pouco arbitrário.
Algoritmo 'B'
De qualquer forma, outro colega propôs um algoritmo separado, que estava em um livro de estatísticas dele (necessidade de obter o nome e o autor):
- Divida o número de elementos por 2 e mantenha uma cópia dos números inteiros arredondados e arredondados. Nomeie-os
n_lo
en_hi
. - Tome a média aritmética dos elementos em
n_lo
en_hi
. - ie, para o conjunto seguinte, a mediana seria
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Isso parece errado, pois o valor mediano, 5.5
nesse caso, não está realmente no conjunto de dados original. Quando trocamos o algoritmo 'A' por 'B' em algum código de teste, ele quebrou horrivelmente (como esperávamos).
Questão
Existe um "nome" formal para essas duas abordagens para calcular a mediana de um conjunto de dados? ou seja, "mediana menor das duas" versus "mediana dos elementos do meio e criar novos dados"?
fonte
Respostas:
TL; DR - Não estou ciente de nomes específicos sendo atribuídos a diferentes estimadores de medianas da amostra. Os métodos para estimar estatísticas de amostra de alguns dados são bastante exigentes e recursos diferentes dão definições diferentes.
Em Introdução à estatística matemática de Hogg, McKean e Craig , os autores fornecem uma definição de medianas de amostras aleatórias , mas apenas no caso de haver um número ímpar de amostras! Os autores escrevem
O algoritmo B tem a propriedade de que metade dos dados fica acima do valor e metade dos dados fica abaixo do valor. À luz da definição da mediana de uma variável aleatória , isso parece bom.
Se um estimador em particular quebra ou não os testes de unidade é uma propriedade dos testes de unidade - os testes de unidade escritos em relação a um estimador específico não serão necessariamente válidos quando você substituir outro estimador. No caso ideal, os testes de unidade foram escolhidos porque refletem as necessidades críticas da sua organização, não por causa de um argumento doutrinário sobre definições.
fonte
O que @Sycorax diz.
De fato, existem surpreendentemente muitas definições de quantis gerais, assim também de medianas. Hyndman & Fan (1996, The American Statistician ) fornecem uma visão geral que é, AFAIK, ainda abrangente. Os diferentes tipos não têm nomes formais. Você pode simplesmente precisar ter certeza de qual tipo está usando. (Geralmente, não faz grande diferença com conjuntos de dados de tamanhos realistas.)
Observe que geralmente é aceito ter um valor que não está presente no conjunto de dados como a mediana, por exemplo, 5,5 como mediana para (4, 5, 6, 7). Este é o comportamento padrão para R:
median()
Por padrão, os R's usam o tipo 7 da classificação de Hyndman & Fan.fonte
Na
mad
função de R , ele usa os termos "mediana baixa" para descrever seu algoritmo A, "mediana alta" para descrever arredondamentos, e apenas "mediana" para descrever seu algoritmo B (que, como outros observaram, é de longe a definição mais comum).Curiosamente, não existe essa opção na
median()
função de R ! (Mas os R'squantile()
têmtype
um ótimo controle.)fonte