A média deve ser usada quando os dados são distorcidos?

14

Geralmente, os textos introdutórios das estatísticas aplicadas distinguem a média da mediana (geralmente no contexto da estatística descritiva e motivam a sumarização da tendência central usando a média, a mediana e o modo), explicando que a média é sensível aos valores extremos nos dados da amostra e / ou para distorcer as distribuições populacionais, e isso é usado como justificativa para a afirmação de que a mediana deve ser preferida quando os dados não são simétricos.

Por exemplo:

A melhor medida de tendência central para um determinado conjunto de dados geralmente depende da maneira como os valores são distribuídos. ... Quando os dados não são simétricos, a mediana geralmente é a melhor medida de tendência central. Como a média é sensível a observações extremas, ela é puxada na direção dos valores dos dados
externos e, como resultado, pode acabar excessivamente inflada ou excessivamente desinflada. "- Pagano e Gauvreau, (2000) Principles of Biostatistics , 2a ed. (A P&G estava à mão, aliás, não as destacando por si só .)

Os autores definem "tendência central" assim: "A característica mais comumente investigada de um conjunto de dados é o centro ou o ponto sobre o qual as observações tendem a se agrupar".

Isso me parece uma maneira menos direta de dizer apenas usar a mediana, ponto final , porque apenas usar a média quando os dados / distribuições são simétricos é o mesmo que dizer usar apenas a média quando é igual à mediana. Edit: whuber corretamente aponta que estou confundindo medidas robustas de tendência central com a mediana. Portanto, é importante ter em mente que estou discutindo o enquadramento específico da média aritmética versus a mediana nas estatísticas introdutórias aplicadas (onde, por outro lado, outras medidas de tendência central não são motivadas).

Em vez de julgar a utilidade do meio pelo quanto ele se afasta do comportamento da mediana, não devemos simplesmente entendê-los como duas medidas diferentes de centralidade? Em outras palavras, ser sensível à assimetria é uma característica da média. Poder-se-ia argumentar com a mesma validade: "bem, a mediana não é boa porque é amplamente insensível à distorção; portanto, use-a apenas quando for igual à média".

(O modo sensivelmente não está se envolvendo com essa pergunta.)

Alexis
fonte
3
Pessoalmente, gosto de incluir ambas as medidas, média e mediana, o que dará ao leitor não apenas algumas informações sobre a tendência central, mas também uma idéia de quão distorcidos os dados são.
Bdeonovic 4/04
1
Algum contexto e esclarecimento melhorariam esta questão. (1) Em que contexto esses textos de introdução (hipotéticos) afirmam que a média deve ser preferida e com que finalidade? (2) Como exatamente esses textos "julgam a utilidade da média por quanto ela se afasta do comportamento da mediana"? Você poderia fornecer um exemplo ou uma cotação para que possamos entender melhor?
whuber
2
Em um ponto, você interpreta mal: a mediana não é a única estatística robusta a algumas observações extremas. Assim, a média é indicada com base em uma característica (frequentemente) indesejável e não por qualquer comparação com a mediana. Mas também recebo um vislumbre de sua preocupação, e talvez isso esteja relacionado à combinação implícita de assimetria e à existência de discrepâncias que ocorrem nessa citação. Isso é lamentavelmente mal concebido, porque, embora ter discrepâncias às vezes implique assimetria, o inverso geralmente não é verdadeiro.
whuber
7
Os leitores aqui encontrarão o seguinte segmento de interesse: Se a média é tão sensível, por que usá-la em primeiro lugar?
gung - Restabelece Monica
2
À luz da definição dada para "tendência central", parece claro por que a média não seria uma medida útil na presença de distorção ou outliers. Se você realmente deseja ou não estimar essa noção de tendência central, parece ser outra questão!
jsk

Respostas:

16

Eu discordo dos conselhos como regra geral. (Não é comum a todos os livros.)

As questões são mais sutis.

Se você está realmente interessado em inferir sobre a média da população, a média da amostra é pelo menos um estimador imparcial e tem várias outras vantagens. De fato, veja o teorema de Gauss-Markov - é melhor imparcialmente linear.

Se suas variáveis ​​são altamente inclinadas, o problema vem com 'linear' - em algumas situações, todos os estimadores lineares podem ser ruins; portanto, o melhor deles ainda pode ser pouco atraente; portanto, um estimador da média não linear pode ser melhor , mas exigiria saber algo (ou muito) sobre a distribuição. Nem sempre temos esse luxo.

Se você não está necessariamente interessado em inferência relacionada a uma média populacional (" qual é a idade típica? ", Diga ou se há uma mudança de local mais geral de uma população para outra, que pode ser expressa em termos de qualquer local ou até mesmo de um teste de uma variável ser estocticamente maior que o de outra) e, em seguida, declarar que, em termos de população, a média não é necessária ou provavelmente contraproducente (no último caso).

Então, acho que tudo se resume a pensar em:

  • quais são suas perguntas reais? Será que a população significa mesmo uma coisa boa a se perguntar nessa situação?

  • qual é a melhor maneira de responder à pergunta dada a situação (assimetria neste caso)? O uso da amostra é a melhor abordagem para responder às nossas perguntas de interesse?

Pode ser que você tenha perguntas não diretamente sobre meios populacionais, mas, mesmo assim, os meios amostrais são uma boa maneira de analisar essas questões ... ou vice-versa - a pergunta pode ser sobre meios populacionais, mas os meios amostrais podem não ser a melhor maneira de responda a essa pergunta.

Glen_b -Reinstate Monica
fonte
14

Na vida real, devemos escolher uma medida de tendência central com base no que estamos tentando descobrir; e sim, às vezes o modo é a coisa certa a ser usada. Às vezes é a média Winsorized ou aparada. Às vezes, a média geométrica ou harmônica. Às vezes, não há uma boa medida de tendência central.

Os livros de introdução são mal escritos, eles ensinam que existem regras a serem aplicadas.

Tome renda. Isso geralmente é muito distorcido e às vezes apresenta discrepâncias; com certeza, geralmente vemos "renda mediana" relatada. Mas às vezes os valores extremos e a distorção são importantes. Depende do contexto e requer reflexão.

Eu escrevi mais sobre isso

Peter Flom - Restabelece Monica
fonte
2
Peter, muito obrigado pelo link para o seu post. Desejo que os textos introdutórios ocupem de 1 a 2 páginas do espaço necessário para fornecer uma consideração tão ponderada quanto você forneceu lá.
Alexis
4
Eu não escrevi um, mas quero inserir um pouco de defesa dos textos introdutórios. Qualquer texto introdutório que tentasse dar uma visão totalmente diferenciada que profissionais experientes reconheceriam como tal seria inflamado por quase todos os destinatários; na verdade, nem seria publicado.
Nick Cox
5
Um comentário substantivo: quando os valores são aditivos, de modo que os totais fazem (por exemplo) sentido físico, a média é um resumo natural, independentemente da distribuição dos valores individuais.
Nick Cox
3
@NickCox Acho que os textos introdutórios podem se sair muito melhor do que eles. Para média versus mediana, nem sequer é um argumento matemático - é substantivo. Os textos introdutórios precisam dizer à pessoa que os lê que eles não são realmente qualificados para fazer a análise dos dados.
Peter Flom - Restabelece Monica
2
@jsk. Ah ok. Eu acho que eles precisam ser explicitamente explicitados nas estatísticas, porque muitas pessoas parecem pensar que estão prontas após um curso de análise de dados; de fato, em muitos campos (psicologia, sociologia, medicina, etc.), espera-se que as pessoas façam a análise dos dados após apenas 1, 2 ou, às vezes, 3 cursos. Nos programas de doutorado, por exemplo, eles devem escrever dissertações. Por que é mais óbvio em outros campos? Não tenho certeza.
Peter Flom - Restabelece Monica
6

Mesmo quando os dados são distorcidos (por exemplo, custos de assistência médica calculados ao lado de um ensaio clínico, onde poucos pacientes totalizaram custo zero porque morrem logo após a inscrição, e poucos pacientes acumularam toneladas de custo devido aos efeitos colaterais de um determinado programa de assistência médica sob investigação ), a média pode ser preferida à mediana por pelo menos um motivo prático: multiplicar o custo médio do número de pacientes fornece aos tomadores de decisão do setor de saúde o impacto orçamentário da tecnologia de saúde em estudo.

Carlo Lazzaro
fonte
Ecoando o comentário de Carlo: se você está interessado em um total da população (por exemplo, em amostragem de auditoria), está interessado no período médio. Se não faz diferença o quão distorcida ou propensa a distribuição externa é, você apenas precisa lidar com isso. Você não pode Winsorize, aparar, remover os outliers ou transformar o log. A estratificação pode ajudar bastante; no caso de extremos extremos, esses devem ser feitos como estratos para si mesmos.
Peter Westfall 16/10
3

Penso que o que falta à pergunta, bem como às duas respostas até agora, é que a discussão sobre média versus mediana nos livros introdutórios de estatística geralmente ocorre no início de um capítulo sobre como resumir numericamente uma distribuição. Ao contrário das estatísticas inferenciais, trata-se geralmente de produzir estatísticas descritivas que seriam uma maneira útil de transmitir informações sobre a distribuição dos dados numericamente e não graficamente. Os contextos em que isso ocorre é a seção estatística descritiva de um relatório ou artigo de periódico em que geralmente não há espaço para resumos gráficos de todas as variáveis ​​em seu conjunto de dados. Se a distribuição for distorcida, parece sensato, neste contexto, escolher a mediana sobre a média. Se a distribuição for simétrica sem discrepantes,

jsk
fonte
1
Seu argumento sobre estatística descritiva versus estatística inferencial vale a pena. Mas você está efetivamente dizendo (para estatística descritiva) "use apenas a média quando for igual à mediana". Se a distribuição é distorcida, a mediana faz um mau trabalho em representar o conceito de per capita , certo? Portanto, não é tão válido assumir a posição "use apenas a mediana quando for igual à média?" Isso é igualmente arbitrário e parece desviar a atenção do significado substantivo dessas medidas (para as pessoas que as aprendem).
Alexis
1
O objetivo não é representar o conceito de per capita? Quem disse? Por que pressupor que esse não é o objetivo?
Alexis
1
Eu não vejo nenhuma grosseria ou "agir chocado" vindo do OP ... só estou dizendo ...
Nick Stauner
1
Não vejo que isso importe se você está fazendo estatísticas inferenciais ou descritivas nesse caso. Se a medida descritiva apropriada da tendência central é a mediana, devem ser feitas inferências sobre a mediana; se a média, então a média. Se nenhuma medida descritiva faz sentido, nenhuma medida inferencial também fará sentido.
Peter Flom - Restabelece Monica
1
@PeterFlom E nos casos em que o objetivo final não é inferência? Concordo que a adequação de uma estatística descritiva depende inteiramente do motivo da produção da estatística. A noção de que é possível que "nenhuma medida descritiva faça sentido" parece implicar que uma estatística descritiva não possa ser inerentemente significativa. Eu argumentaria que em quase todos os casos, a mediana faz sentido como uma medida do centro da distribuição por definição. Se faz ou não sentido para outros fins é outra questão.
jsk