Se a média é tão sensível, por que usá-la em primeiro lugar?

84

É sabido que a mediana é resistente a valores discrepantes. Se for esse o caso, quando e por que usaríamos a média em primeiro lugar?

Uma coisa em que posso pensar talvez seja entender a presença de discrepantes, ou seja, se a mediana estiver longe da média, a distribuição será distorcida e talvez os dados precisem ser examinados para decidir o que deve ser feito com os discrepantes. Existem outros usos?

lenda
fonte
14
Em relação à primeira pergunta, uma observação rápida: a média nas estatísticas é apenas o primeiro momento de uma população , enquanto a mediana não. Procurando usar CLT, lei de grandes números, etc., você está novamente ligado à existência de momentos finitos. Embora tomando por exemplo a distribuição Cauchy: existe mediano, enquanto a média não;)
Dmitrij Celov
2
@Dmitrij Essa é uma resposta profunda e perspicaz. Por que você não explica isso em uma resposta?
whuber
Se você não usasse o meio, machucaria seus sentimentos? (Desculpe, não pude resistir.)
Daniel R Hicks
3
@ Daniel R Hicks: E isso é bastante cruel, não é? (Desculpe, não pude resistir também).
Muhammad Alkarouri
3
Essa pergunta é muito mais interessante do que o habitual: "Como é que nem sempre usamos algoritmos robustos?" pergunta, mas pode ter o mesmo pensamento subjacente de "robusto == mágico" e, se apenas utilizássemos métodos robustos, não precisaríamos examinar nossos dados, entendê-los ou nos preocupar com diferentes tipos de problemas de precisão, pois eles são "robusto". Ainda assim, +1.
Wayne

Respostas:

113

2πn

É interessante notar que, para uma medida de variação (dispersão, dispersão), existe um estimador muito robusto que é 0,98 tão eficiente quanto o desvio padrão, ou seja, a diferença média de Gini. Essa é a diferença absoluta média entre duas observações. [Você precisa multiplicar o desvio padrão da amostra por uma constante para estimar a mesma quantidade estimada pela diferença média de Gini.] Uma medida eficiente da tendência central é o estimador de Hodges-Lehmann, ou seja, a mediana de todas as médias aos pares. Nós o usaríamos mais se sua interpretação fosse mais simples.

Frank Harrell
fonte
13
+1 por mencionar o estimador de tendência central de Hodges-Lehmann. Em muitos aspectos, é intermediário entre média e mediana. Se fosse fácil calcular em uma amostra grande, seria mais popular do que a média ou mediana como medida de localização, eu acho.
precisa saber é o seguinte
BTW, @Frank, você sabe qual distribuição teórica de amostragem o centro de Hodges-Lehmann segue? Eu não - e me interesso.
ttnphns
16
Obrigado pelo comentário. A um forro em R pode calcular-lo eficientemente até N = 5000: w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2. Um programa trivial C, Fortran ou Ratfor poderia ser chamado pelo R para torná-lo rápido demais. O pacote ICSNP em R tem uma implementação bastante eficiente com sua hl.locfunção. Para N = 5000, foi 2,66 vezes mais rápido que o código acima (tempo total de 1,5 s). Seria bom também obter um intervalo de confiança com eficiência.
precisa
SnQnσ
1
Estamos falando de medidas de dispersão, portanto a comparação de modelos não está em questão (e não confunda com o "Índice de Gini"). A diferença média de Gini é uma medida absoluta. É mais fácil interpretar do que as outras medidas. O fato de você precisar calcular uma constante diferente para cada distribuição me diz que não queremos usar a constante.
Frank Harrell
36

Já existem muitas ótimas respostas, mas, dando um passo atrás e ficando um pouco mais básico, eu diria que é porque a resposta que você recebe depende da pergunta que você faz. A média e a mediana respondem a perguntas diferentes - às vezes uma é apropriada, às vezes a outra.

É simples dizer que a mediana deve ser usada quando houver discrepâncias, distribuições distorcidas ou qualquer outra coisa. Mas nem sempre é esse o caso. Obter renda - quase sempre relatada com mediana, e geralmente é isso mesmo. Mas se você estiver olhando para o poder aquisitivo de toda uma comunidade, pode não estar certo. E, em alguns casos, até o modo pode ser melhor (especialmente se os dados estiverem agrupados).

Peter Flom
fonte
8
+1 para o ponto óbvio que mais ninguém parecia abordar: são conceitos diferentes e respondem a perguntas diferentes. Além disso, em muitos casos, muito se perde ao condensar toda a distribuição em um número de resumo, portanto, às vezes, os dois fazem um trabalho ruim.
Michael McGowan
25

Quando um valor é um lixo para nós, nós o chamamos de "mentiroso" e queremos que a análise seja robusta (e preferimos mediana); quando esse mesmo valor é atraente, chamamos de "extremo" e queremos que a análise seja sensível a ele (e prefira média). Dialética ...

A média reage igualmente a uma mudança de valor, independentemente de onde na distribuição a mudança ocorre. Por exemplo, 1 2 3 4 5você pode aumentar qualquer valor em 2 - o aumento da média será o mesmo. A reação da mediana é menos "consistente": adicione 2 aos pontos de dados 4 ou 5 e a mediana não aumentará; mas acrescente 2 ao ponto 2 - para que a mudança ultrapasse a mediana e a mediana mude drasticamente (muito mais do que a média mudará).

A média está sempre exatamente localizada. Mediana não é; por exemplo, no conjunto, 1 2 3 4 qualquer valor entre 2 e 3 pode ser chamado de mediana. Assim, análises baseadas em medianas nem sempre são uma solução única.

Média é um locus de desvios mínimos da soma dos quadrados. Muitas tarefas de otimização baseadas em álgebra linear (incluindo a famosa regressão OLS) minimizam esse erro ao quadrado e, portanto, implicam conceito de média. Mediana: um locus de soma mínima de desvios absolutos. As técnicas de otimização para minimizar esse erro não são lineares e são mais complexas / pouco conhecidas.

ttnphns
fonte
2
+1 Eu tenho um pouco de preocupação de que o primeiro parágrafo possa ser mal interpretado, pois implicar uma detecção externa é um processo inteiramente subjetivo. Eu não acho que você queira sugerir isso, no entanto.
whuber
8
+1 | Penso que a primeira frase implica que a aplicação da detecção de outlier é inteiramente subjetiva e, portanto, voto para manter como está.
John
2
Eu quis dizer que a detecção outliar é um procedimento rigoroso com raízes filosóficas ou morais subjetivas
ttnphns
3
@ttnphns, a ortografia "outliar" em vez de "outlier" é intencional ou não?
Mpgtas
1
Erro de digitação não intencional.
ttnphns
16

Há muitas respostas para essa pergunta. Aqui está um que você provavelmente não verá em outro lugar, por isso estou incluindo aqui porque acredito que seja pertinente ao tópico. As pessoas geralmente acreditam que, porque a mediana é considerada uma medida robusta em relação aos valores discrepantes, também é robusta para quase tudo. De fato, também é considerado robusto ao viés em distribuições distorcidas. Essas duas propriedades robustas da mediana são frequentemente ensinadas juntas. Pode-se notar que as distribuições distorcidas subjacentes também tendem a gerar pequenas amostras que parecem ter discrepâncias e a sabedoria convencional é que se use medianas nessas situações.

#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
    rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
    }

(apenas uma demonstração de que isso é distorcido e a forma básica)

hist(rexg(1e4, 0, 1, 1))

enredo

Agora, vamos ver o que acontece se coletarmos nesta distribuição vários tamanhos de amostra e calcularmos a mediana e pretendermos ver quais são as diferenças entre eles.

#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red') 
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)

plot2

Como pode ser visto no gráfico acima, a mediana (em vermelho) é muito mais sensível ao n do que à média. Isso é contrário a alguma sabedoria convencional sobre o uso de medianas com ns baixos, especialmente se a distribuição puder ser distorcida. E, reforça o ponto de que a média é um valor conhecido enquanto a mediana é sensível a outras propriedades, uma se qual for o n.

Esta análise é semelhante a Miller, J. (1988). Um aviso sobre o tempo médio de reação. Journal of Experimental Psychology: Human Perception and Performance , 14 (3): 539-543.

REVISÃO

Ao pensar sobre a questão da distorção, considerei que o impacto na mediana poderia ser apenas porque em amostras pequenas você tem uma probabilidade maior de que a mediana esteja na cauda da distribuição, enquanto a média quase sempre será ponderada por valores mais próximos da média. modo. Portanto, talvez se alguém estivesse apenas amostrando com uma probabilidade de outliers, talvez os mesmos resultados ocorressem.

Então, pensei em situações em que podem ocorrer discrepâncias e os experimentadores podem tentar eliminá-las.

Se os outliers ocorreram de maneira consistente, como um em cada amostra de dados, as medianas são robustas contra o efeito desse outlier e a história convencional sobre o uso de medianas é válida.

Mas geralmente não é assim que as coisas acontecem.

Pode-se encontrar um outlier em poucas células de um experimento e decidir usar mediana em vez de média neste caso. Novamente, a mediana é mais robusta, mas seu impacto real é relativamente pequeno, porque existem muito poucos discrepantes. Definitivamente, este seria um caso mais comum do que o descrito acima, mas o efeito do uso de uma mediana provavelmente seria tão pequeno que não importaria muito.

Talvez os outliers mais comuns possam ser um componente aleatório dos dados. Por exemplo, a verdadeira média e o desvio padrão da população podem ser cerca de 0, mas há uma porcentagem do tempo que coletamos de uma população externa onde a média é 3. Considere a seguinte simulação, na qual apenas uma amostra dessa população varia de amostra Tamanho.

#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
    outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
    numOutliers <- sum(outPos)
    y <- matrix( rnorm(N*n), ncol = N )
    y[which(outPos==1)] <- rnorm(numOutliers, 4)
    return(y)
    }

outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red') 
lines(ns,yM)

resultados

A mediana está em vermelho e média em preto. Esta é uma descoberta semelhante à de uma distribuição distorcida.

Em um exemplo relativamente prático do uso de medianas para evitar os efeitos de outliers, pode-se chegar a situações em que a estimativa é afetada por n muito mais quando a mediana é usada do que quando a média é usada.

John
fonte
Belo exemplo, mas realmente depende da distribuição. Se você usar uma distribuição normal ou uma distribuição uniforme, o gráfico será muito diferente, com as duas linhas sobrepostas. É a distribuição exponencial que produz a diferença.
Nico
1
-1 Esta resposta confunde "sensibilidade" com "viés".
whuber
4
Muito melhor; Eu removi o voto negativo. Mas estou intrigado com a nova explicação: você poderia apontar alguma fonte - um texto, artigo ou site - que realmente afirma que "[a mediana] também é considerada robusta ao viés em distribuições distorcidas" e explica o que isso pode significar? Eu nunca me deparei com essa afirmação antes e não tenho certeza do que está realmente dizendo.
whuber
3
É mais conhecimento popular para lidar com os tempos de reação (conhecidos por serem distorcidos) na pesquisa em psicologia. Coloquei uma referência a um artigo que refuta a sabedoria popular da psicologia (que me sinto mal por não ter mencionado anteriormente).
John
3
BTW, apesar do trabalho de Miller (1988), as pessoas ainda usam tempos médios de reação em estudos com manipulações de probabilidade em que as condições têm diferentes números de amostras e a mais baixa é geralmente bastante pequena.
John
11
  • A partir da média, é fácil calcular a soma de todos os itens, por exemplo, se você conhece a renda média da população e o tamanho da população, pode calcular imediatamente a renda total de toda a população.

  • A média é simples de calcular na O(n)complexidade do tempo. O cálculo da mediana no tempo linear é possível, mas requer mais reflexão. A solução óbvia que requer classificação tem uma O(n log n)complexidade de tempo pior ( ).

E eu especulo que há outra razão para a média ser mais popular do que a mediana:

  • A média é ensinada a mais pessoas na escola e provavelmente é ensinada antes de ensinar a mediana
Andre Holzner
fonte
Para o seu ponto de complexidade de tempo, depende de como os valores são armazenados. Se os valores já estiverem classificados, certamente será possível calcular a mediana na O (1) pior complexidade do tempo.
luiscubal
Eu concordo - sua aplicabilidade em cálculos como somas é uma das principais vantagens da média. Embora muitas vezes prefira a mediana quando o objetivo é descrever algo, geralmente usamos a média quando ela é uma entrada para outro cálculo.
Jonathan
5

"É sabido que a mediana é resistente a valores discrepantes. Se for esse o caso, quando e por que usaríamos a média em primeiro lugar?"

Nos casos, sabe-se que não há discrepantes, por exemplo, quando se conhece o processo de geração de dados (por exemplo, nas estatísticas matemáticas).

Deve-se ressaltar o trivial, que essas duas quantidades (média e mediana) não estão na verdade medindo a mesma coisa e que a maioria dos usuários pergunta pela primeira quando o que realmente deveria se interessar pela segunda (esse ponto é bem ilustrado por os testes medianos de Wilcoxon, que são mais facilmente interpretados que os testes t).

Depois, há os casos em que, por alguma razão de acaso ou outra, alguma regulamentação impõe o uso de sua intenção.

user603
fonte
2

Se a preocupação for com a presença de discrepantes, existem algumas maneiras simples de verificar seus dados.

Os outliers, quase por definição, entram em nossos dados quando algo muda no processo de geração dos dados ou no processo de coleta dos dados. isto é, os dados deixam de ser homogêneos. Se seus dados não forem homogêneos, nem a média nem a mediana fazem muito sentido, pois você está tentando estimar a tendência central de dois conjuntos de dados separados que foram misturados.

O melhor método para garantir a homogeneidade é examinar os processos de geração e coleta de dados para garantir que todos os seus dados sejam provenientes de um único conjunto de processos. Nada bate um pouco de força cerebral aqui.

Como verificação secundária, você pode recorrer a um dos vários testes estatísticos: qui-quadrado, teste Q de Dixon, teste de Grubb ou o gráfico de controle / gráfico de comportamento do processo (normalmente X-bar R ou XmR). Minha experiência é que, quando seus dados podem ser ordenados conforme foram coletados, os gráficos de comportamento do processo são melhores para detectar valores extremos do que os testes extremos. Esse uso para os gráficos pode ser um pouco controverso, mas acredito que seja inteiramente consistente com a intenção original de Shewhart e é um uso explicitamente defendido por Donald Wheeler. Independentemente de você usar testes de outliers ou gráficos de comportamento do processo, lembre-se de que um "outlier" detectado é apenas um sinal de potencialnão homogeneidade que precisa ser mais examinada. Raramente faz sentido descartar pontos de dados se você não tiver uma explicação sobre por que eles foram discrepantes.

Se você estiver usando R, o pacote outliers fornecerá os testes outliers e, para gráficos de comportamento do processo, existem qcc , IQCC e qAnalyst. Tenho uma preferência pessoal pelo uso e pela saída do pacote qcc.

Tom
fonte
2

Quando você pode querer dizer a média?

Exemplos de finanças:

  • Devoluções de títulos:
    • O retorno médio dos títulos geralmente será de alguns pontos percentuais.
    • O retorno médio dos títulos pode ser baixo ou alto, dependendo da taxa padrão e da recuperação padrão. A mediana ignorará tudo isso!
    • Boa sorte, explicando aos seus investidores: "Sei que nosso fundo caiu 40% este ano, porque quase metade dos títulos faliu sem recuperação, mas nosso bônus médio retornou 1%!"
  • Retorno de capital de risco:
    • A mesma coisa ao contrário. O investimento médio em VC ou anjo é um fracasso, e todo o retorno vem de alguns vencedores! (Observação / aviso: as estimativas de retorno do capital de risco ou do capital privado são altamente problemáticas ... tenha cuidado!)

Ao formar um portfólio diversificado, decidindo em que investir e quanto, a média e a covariância dos retornos provavelmente serão um fator de destaque no seu problema de otimização.

Matthew Gunn
fonte
Concordamos, mas parece que média ou mediana não é o foco em nenhuma dessas situações: é que os totais podem ser as principais quantidades. Naturalmente, isso implica, por sua vez, que meios seriam melhores resumos do que medianas. Mas, desde que o retorno médio dos títulos possa ser uma resposta tola, mas alguém o propõe?
Nick Cox
@NickCox Dois comentários. (1) Que o retorno médio dos títulos é tolo é o ponto! Há uma grande teoria nessas respostas, mas achei que um exemplo extremamente simples poderia adicionar alguma cor. Para citar a resposta de Frank, "a média é usada porque é sensível aos dados" e os retornos do portfólio fornecem uma situação simples e compreensível onde você deseja isso. (2) A distinção entre se preocupar com o "total" versus se importar com o "médio" pode ficar bastante nebulosa. "Devo investir em um fundo de hedge?" Para responder a isso, talvez eu queira saber "qual é o retorno médio dos fundos de hedge?"
Matthew Gunn
1
(1) eu concordo, como dito; minha pergunta é apenas se a mediana é mencionada seriamente no ensino ou na literatura de pesquisa para esse fim. (2) não acho que meu argumento seja nebuloso; é uma questão simples do que vem primeiro, ou seja, é de interesse primário praticamente. Vejo as manchetes "quadrilha presa por um total de 200 anos" e sei por que elas são impressas, mas é uma maneira estranha de resumir. Por outro lado, 200 mortos em uma série de desastres são primários, em vez de cinco, com uma média de 40 mortos em cada um. A questão (pequena) é escolher qual declaração resumida é mais adequada.
Nick Cox
@NickCox Ponto tomado. Concordo que você se preocupa com o total de seus próprios investimentos. Porém, ao formar uma carteira e decidir sobre pesos da carteira em títulos específicos, você cuidará das propriedades do retorno desse título. Não vou comprar TODOS os títulos municipais, não me importo diretamente com o total, mas me preocupo com o retorno médio de um título municipal? Quais são as propriedades de risco / retorno se eu adicionar algumas ao meu portfólio?
Matthew Gunn
Acordado. Esse é o território aqui.
Nick Cox