Geralmente, os textos introdutórios das estatísticas aplicadas distinguem a média da mediana (geralmente no contexto da estatística descritiva e motivam a sumarização da tendência central usando a média, a mediana e o modo), explicando que a média é sensível aos valores extremos nos dados da amostra e / ou para distorcer as distribuições populacionais, e isso é usado como justificativa para a afirmação de que a mediana deve ser preferida quando os dados não são simétricos.
Por exemplo:
A melhor medida de tendência central para um determinado conjunto de dados geralmente depende da maneira como os valores são distribuídos. ... Quando os dados não são simétricos, a mediana geralmente é a melhor medida de tendência central. Como a média é sensível a observações extremas, ela é puxada na direção dos valores dos dados
externos e, como resultado, pode acabar excessivamente inflada ou excessivamente desinflada. "- Pagano e Gauvreau, (2000) Principles of Biostatistics , 2a ed. (A P&G estava à mão, aliás, não as destacando por si só .)
Os autores definem "tendência central" assim: "A característica mais comumente investigada de um conjunto de dados é o centro ou o ponto sobre o qual as observações tendem a se agrupar".
Isso me parece uma maneira menos direta de dizer apenas usar a mediana, ponto final , porque apenas usar a média quando os dados / distribuições são simétricos é o mesmo que dizer usar apenas a média quando é igual à mediana. Edit: whuber corretamente aponta que estou confundindo medidas robustas de tendência central com a mediana. Portanto, é importante ter em mente que estou discutindo o enquadramento específico da média aritmética versus a mediana nas estatísticas introdutórias aplicadas (onde, por outro lado, outras medidas de tendência central não são motivadas).
Em vez de julgar a utilidade do meio pelo quanto ele se afasta do comportamento da mediana, não devemos simplesmente entendê-los como duas medidas diferentes de centralidade? Em outras palavras, ser sensível à assimetria é uma característica da média. Poder-se-ia argumentar com a mesma validade: "bem, a mediana não é boa porque é amplamente insensível à distorção; portanto, use-a apenas quando for igual à média".
(O modo sensivelmente não está se envolvendo com essa pergunta.)
Respostas:
Eu discordo dos conselhos como regra geral. (Não é comum a todos os livros.)
As questões são mais sutis.
Se você está realmente interessado em inferir sobre a média da população, a média da amostra é pelo menos um estimador imparcial e tem várias outras vantagens. De fato, veja o teorema de Gauss-Markov - é melhor imparcialmente linear.
Se suas variáveis são altamente inclinadas, o problema vem com 'linear' - em algumas situações, todos os estimadores lineares podem ser ruins; portanto, o melhor deles ainda pode ser pouco atraente; portanto, um estimador da média não linear pode ser melhor , mas exigiria saber algo (ou muito) sobre a distribuição. Nem sempre temos esse luxo.
Se você não está necessariamente interessado em inferência relacionada a uma média populacional (" qual é a idade típica? ", Diga ou se há uma mudança de local mais geral de uma população para outra, que pode ser expressa em termos de qualquer local ou até mesmo de um teste de uma variável ser estocticamente maior que o de outra) e, em seguida, declarar que, em termos de população, a média não é necessária ou provavelmente contraproducente (no último caso).
Então, acho que tudo se resume a pensar em:
quais são suas perguntas reais? Será que a população significa mesmo uma coisa boa a se perguntar nessa situação?
qual é a melhor maneira de responder à pergunta dada a situação (assimetria neste caso)? O uso da amostra é a melhor abordagem para responder às nossas perguntas de interesse?
Pode ser que você tenha perguntas não diretamente sobre meios populacionais, mas, mesmo assim, os meios amostrais são uma boa maneira de analisar essas questões ... ou vice-versa - a pergunta pode ser sobre meios populacionais, mas os meios amostrais podem não ser a melhor maneira de responda a essa pergunta.
fonte
Na vida real, devemos escolher uma medida de tendência central com base no que estamos tentando descobrir; e sim, às vezes o modo é a coisa certa a ser usada. Às vezes é a média Winsorized ou aparada. Às vezes, a média geométrica ou harmônica. Às vezes, não há uma boa medida de tendência central.
Os livros de introdução são mal escritos, eles ensinam que existem regras a serem aplicadas.
Tome renda. Isso geralmente é muito distorcido e às vezes apresenta discrepâncias; com certeza, geralmente vemos "renda mediana" relatada. Mas às vezes os valores extremos e a distorção são importantes. Depende do contexto e requer reflexão.
Eu escrevi mais sobre isso
fonte
Mesmo quando os dados são distorcidos (por exemplo, custos de assistência médica calculados ao lado de um ensaio clínico, onde poucos pacientes totalizaram custo zero porque morrem logo após a inscrição, e poucos pacientes acumularam toneladas de custo devido aos efeitos colaterais de um determinado programa de assistência médica sob investigação ), a média pode ser preferida à mediana por pelo menos um motivo prático: multiplicar o custo médio do número de pacientes fornece aos tomadores de decisão do setor de saúde o impacto orçamentário da tecnologia de saúde em estudo.
fonte
Penso que o que falta à pergunta, bem como às duas respostas até agora, é que a discussão sobre média versus mediana nos livros introdutórios de estatística geralmente ocorre no início de um capítulo sobre como resumir numericamente uma distribuição. Ao contrário das estatísticas inferenciais, trata-se geralmente de produzir estatísticas descritivas que seriam uma maneira útil de transmitir informações sobre a distribuição dos dados numericamente e não graficamente. Os contextos em que isso ocorre é a seção estatística descritiva de um relatório ou artigo de periódico em que geralmente não há espaço para resumos gráficos de todas as variáveis em seu conjunto de dados. Se a distribuição for distorcida, parece sensato, neste contexto, escolher a mediana sobre a média. Se a distribuição for simétrica sem discrepantes,
fonte