Por que a idade mediana é uma estatística melhor do que a idade média?

41

texto alternativo

texto alternativo

Claramente, a mediana parece ser a estatística de escolha quando se trata de idades.

Não sou capaz de explicar por que razão a média aritmética seria uma estatística pior. Por que é tão?

Originalmente publicado aqui porque eu não sabia que este site existia.

lazer
fonte
4
Parece que você já teve uma resposta razoável no outro site?
Shane
1
@ Shane: Mas talvez sites diferentes possuam o potencial de obter respostas diferentes de diferentes pontos de vista?
whuber

Respostas:

42

A estatística não fornece uma boa resposta para essa pergunta, na minha opinião. Uma média pode ser relevante em estudos de mortalidade, por exemplo, mas as idades não são tão fáceis de medir quanto você imagina. Pessoas idosas, analfabetas e pessoas em alguns países do terceiro mundo tendem a arredondar suas idades para um múltiplo de 5 ou 10, por exemplo.

A mediana é mais resistente a esses erros do que a média. Além disso, as idades medianas são tipicamente 20 - 40, mas as pessoas podem viver até 100 anos ou mais (uma proporção crescente e perceptível da população dos países modernos agora vive além de 100). Pessoas dessa idade têm 1,5 a 4 vezes a influência sobre a média do que sobre a mediana em comparação com pessoas muito jovens. Assim, a mediana é uma estatística um pouco mais atualizada em relação à distribuição etária de um país e é um pouco mais independente das taxas de mortalidade e da expectativa de vida do que a média.

Por fim, a mediana fornece uma imagem um pouco melhor da aparência da distribuição etária: quando você vê uma mediana de 35 anos, por exemplo, sabe que metade da população tem mais de 35 anos e pode deduzir algumas coisas sobre taxas de natalidade, idades dos pais e assim por diante; mas se a média for 35, não se pode dizer o mesmo, porque esses 35 poderiam ser influenciados por uma grande população em 70 anos, por exemplo, ou talvez por uma lacuna populacional em alguma faixa etária devido a uma guerra ou epidemia antiga.

Assim, por razões demográficas, e não estatísticas, uma mediana parece mais digna do papel de um valor abrangente para resumir as idades de populações relativamente grandes de pessoas.

whuber
fonte
1
Eu acho que você quis dizer "A mediana é mais resistente a esses erros do que a média". No entanto, concordo com seus comentários e acredito que o censo dos EUA normalmente reporte medianas para muitas categorias em relatórios oficiais (não apenas a idade), basicamente pelas mesmas razões. A renda talvez seja até um exemplo melhor do que a idade para ilustrar esses pontos.
Andy W
Você substituiu um fato - a média é sensível a outliers / distribuições distorcidas - por uma declaração de valor sobre a preferência pela mediana em relação à média. De fato, você argumentou que a média não deve ser preferida porque não é a mediana (assim como aqueles que dizem que alguém deve usar a média apenas em distribuições simétricas, ou seja, quando a média e a mediana são iguais).
Alexis
1
@ Alexis Eu não sigo suas críticas. Você poderia elaborar? Afinal, essa resposta fornece muito mais do que "um fato": contém várias delas, juntamente com uma análise de suas implicações. E especificamente a que "declaração de valor" você se refere?
whuber
Minha preocupação é que as características factuais da média e da mediana (por exemplo, a primeira é sensível a valores extremos, a saber, "pessoas dessa idade têm 1,5 a 4 vezes a influência sobre a média do que sobre a mediana em comparação com pessoas muito jovens"). traduzidos em valores sobre seu valor, ou seja, "a mediana nos dá uma imagem um pouco melhor de como é a distribuição etária em si". O primeiro é um fato, e depois uma avaliação desse fato. Minha preocupação é com a troca entre os dois. Mais: stats.stackexchange.com/questions/96371/…
Alexis
1
@ Alexis Por favor, tenha em mente que esta questão não é sobre o uso de média ou mediana em geral, mas sobre suas utilidades na avaliação das distribuições de idade. Observe que, desde o início, minha resposta reconhece que não há panacéia: que a média é útil e relevante para fins específicos. Eu não acho que cometi o pecado do qual você me acusa, que é a vaga aplicação de "melhor": estipulei cuidadosamente como a mediana e a média diferem nesse contexto . Parece-me que você tem um problema para flagelar sobre meios versus medianas, mas este não é o lugar para fazê-lo.
whuber
16

John deu uma boa resposta no site da irmã.

Um aspecto que ele não mencionou explicitamente é a robustez: a mediana como uma medida da localização central é melhor que a média, pois possui um ponto de decomposição mais alto (de 50%), enquanto a média tem um valor muito baixo de 0 (consulte a Wikipedia para detalhes )

Intuitivamente, isso significa que observações ruins individuais não distorcem a mediana, enquanto o fazem pela média.

Dirk Eddelbuettel
fonte
9
A discriminação não é um problema para uma estatística descritiva de uma população inteira.
whuber
12

Aqui está a minha resposta publicada pela primeira vez em math.stackexchange:

Mediana é o que muitas pessoas realmente têm em mente quando dizem "mau". É mais fácil interpretar a mediana: metade da população está acima dessa idade e metade está abaixo. A média é um pouco mais sutil.

As pessoas procuram simetria e, às vezes, impõem simetria quando não existe. A distribuição etária em uma população está longe de ser simétrica, portanto a média pode ser enganosa. As distribuições de idade são como uma pirâmide. Muitas crianças, não muitos idosos. (Ou pelo menos é assim que está em uma espécie de estado estacionário. Nos EUA, a geração pós-Segunda Guerra Mundial distorceu essa distribuição à medida que envelhecia. Algumas pessoas chamam isso de "esquadrar a pirâmide" porque os boomers fizeram o topo da pirâmide mais larga do que era no passado.)

Com uma distribuição assimétrica, pode ser melhor relatar a mediana porque é uma estatística simétrica. A mediana é simétrica, mesmo que a distribuição amostral não seja.

John D. Cook
fonte
Em que sentido a mediana é uma estatística "simétrica"? Certamente não é o caso que as distribuições tendem a ser distribuídas simetricamente sobre suas medianas (nem sobre seus meios). Se você quer dizer apenas o que escreveu em outro comentário que a "mediana divide a população pela metade" (que define a mediana), seu argumento parece circular: a mediana é boa porque a mediana é a mediana!
whuber
7

Por que um machado é melhor que um machado?

Isso é semelhante à sua pergunta. Eles apenas querem dizer e fazer coisas diferentes. Se alguém está falando sobre medianas, então a história que eles estão tentando transmitir, o modelo que eles estão tentando aplicar aos dados, é diferente daquele com meios.

John
fonte
4

Para um exemplo concreto, considere as idades médias do Congo (RDC) e do Japão. Uma é devastada pela guerra civil, a outra é bem desenvolvida com o envelhecimento da população. A média não é muito interessante para uma comparação de maçãs com maçãs. Por outro lado, a mediana pode ser informativa como uma medida da tendência central, pois, por definição, temos metade acima, metade abaixo. O artigo da Wikipedia sobre Pirâmide Populacional pode ser esclarecedor (consulte as seções sobre protuberância de jovens, envelhecimento da população).

ars
fonte
3

Os repositórios de dados de saúde pública nos Estados Unidos estão mudando para uma AGE no formato de anos, com incrementos de cinco anos, devido ao impacto dos regulamentos da HIPAA em relação à ocultação e ocultação intencional de dados por motivos de privacidade pessoal.

Dado esse desafio ao que havia sido no passado (antes do HIPAA) um nível de dados de medida de escala bastante razoável com base na diferença entre a data de nascimento e a data da morte, talvez seja necessário reconsiderar a AGE como uma variável de escala que pode ser descrito parametricamente em conjuntos de dados de saúde pública, a favor de modelos que descrevem a idade de maneira não paramétrica, como um nível de medida ordinal. Sei que isso pode parecer "exagerado" para muitas facções da comunidade de informática biomédica, mas essa ideia pode ter algum mérito em termos de "interpretação", conforme descrito nos comentários acima.

E quanto a todo o poder analítico disponível para as abordagens não paramétricas? Sim, é verdade que todos nós quase universalmente tentamos aplicar técnicas GLM (modelo linear geral) a uma variável que se apresenta a nós em distribuições que se comportam da maneira que a AGE faz.

Ao mesmo tempo, o formato dessa distribuição e como esse formato está sendo determinado pelos efeitos de interação de múltiplas dimensões em centróides multidimensionais e centróides de subgrupos presentes na distribuição devem ser levados em consideração. O que fazer com esses conjuntos de dados muito complexos?

Quando um elemento de dados falha em atender às "premissas do modelo", examinamos progressivamente (eu disse transversalmente, não para baixo; devemos ser empregadores de método com oportunidades iguais, cada ferramenta vem da fábrica com o formulário segue as regras de função) da lista de outros modelos possíveis para encontrar aqueles que "não falham" nos testes de suposições.

No atual formato dos conjuntos de dados de saúde pública, precisamos (como uma comunidade de visualização de dados) realmente de apresentar um modelo mais padrão para lidar com a AGE em incrementos de cinco anos (5YI). Meu voto na visualização de dados do AGE (dado o novo formato 5YI) é usar histogramas e gráficos de caixas e bigodes. Sim, isso significa a mediana. (Sem trocadilhos!)

Às vezes, uma imagem vale mais que mil palavras e um resumo é um resumo de mil palavras. O gráfico de caixa e bigode mostra a "forma" da distribuição como uma representação simbólica significativa do histograma em um nível quase icônico de resolução. Comparar as distribuições dos incrementos de cinco anos de idade, mostrando gráficos de caixas e bigodes "lado a lado", nos quais é possível comparar instantaneamente visualmente padrões de 75 a 50 (mediana) a 25º ntiles, seria um "padrão universal" elegante para comparar a IDADE entre o mundo. Para aqueles de nós que continuam gostando da emoção da representação de dados através da mecânica textual da exibição tabular, o diagrama "caule e folha" também pode ser útil quando empregado como elemento gráfico visual animado em um "sparkline"

A IDADE atingiu a maioridade. Ele precisa ser explorado ainda mais com os algoritmos computacionais mais poderosos que estão agora disponíveis.

Richard E. Gilder
fonte
1
Esta é uma publicação bem escrita, mas não parece ter nenhuma conexão com a pergunta original.
Andy W
Eu acho que indiretamente, mas adequadamente, aborda a intenção aparente da pergunta, @Andy. A falha, se houver, está na própria pergunta, que é ambígua, porque não especifica o sentido em que uma média pode ser "pior" que uma mediana. Portanto, uma boa resposta deve ser explorada e considerar o objetivo de resumir uma distribuição etária com uma única estatística. Aqui, isso leva naturalmente a uma discussão sobre o que uma "idade" pode significar e como comparar adequadamente as distribuições de idade.
whuber
3

Eu não acho que haja uma boa razão descritiva para escolher mediana sobre média para distribuições de idade. Existe uma praticidade ao comparar os dados relatados.

Muitos países relatam sua população em intervalos de 5 anos com a banda de topo em aberto. Isso causa algumas dificuldades para calcular a média dos intervalos, especialmente para o intervalo mais jovem (afetado pelas taxas de mortalidade infantil), o "intervalo" superior (qual é a média de um "intervalo" 80+)?) E os intervalos próximos ao topo ( a média de cada intervalo é geralmente menor que o meio).

É muito mais fácil estimar a mediana interpolando dentro do intervalo mediano, geralmente aproximando-se assumindo uma distribuição etária plana ou trapézio nesse intervalo (as taxas de mortalidade em muitos países são relativamente baixas em torno da idade mediana, tornando essa aproximação mais razoável do que é para jovens ou idosos).

Henry
fonte
3

Para dar uma resposta útil, a pergunta original requer que nós a conheçamos. Em outras palavras, "Por que você deseja algum tipo de estatística resumida comparando a distribuição etária de diferentes países?" A mediana pode ser a mais útil para algumas perguntas. A média pode ser a mais útil para os outros. E provavelmente há perguntas em que "por cento acima (ou abaixo) de uma determinada idade" seria a estatística mais útil.

Emil Friedman
fonte
2

Você está recebendo boas respostas aqui, mas deixe-me adicionar meus 2 centavos. Eu trabalho com produtos farmacêuticos, que tratam de volume de sangue, taxa de eliminação, nível básico de efeito de drogas, efeito máximo de drogas e parâmetros como esse.

Fazemos uma distinção entre variáveis ​​que podem assumir qualquer valor mais ou menos, versus valores que só podem ser positivos. Um exemplo de variável que pode assumir qualquer valor, mais ou menos, seria o efeito do medicamento, que poderia ser positivo, zero ou negativo. Um exemplo de uma variável que apenas pode ser realisticamente positiva é o volume sanguíneo ou a taxa de eliminação de medicamentos.

Modelamos essas coisas com distribuições que normalmente são normais ou normais do log, normais para as com qualquer valor e normais para as únicas positivas. Um número lognormal é o número E levado à potência de um número normalmente distribuído, e é por isso que só pode ser positivo.

Para uma variável normalmente distribuída, a mediana, a média e o modo são o mesmo número, portanto, não importa qual você use. No entanto, para uma variável lognormalmente distribuída, a média é maior que a mediana e o modo, portanto, não é realmente muito útil. De fato, a mediana é onde o normal subjacente tem sua média; portanto, é uma medida muito mais atraente.

Como a idade (presumivelmente) nunca pode ser negativa, uma distribuição lognormal provavelmente é uma descrição melhor do que a normal; portanto, a mediana (E para a média do normal subjacente) é mais útil.

Mike Dunlavey
fonte
5
A distribuição da idade certamente não é normal.
Rob Hyndman
1
Eu não acho que você possa inferir que a idade é normalmente distribuída log apenas pelo fato de ser sempre positiva. As distribuições gama e Weibull também são sempre positivas, então por que não escolher essas?
Nico
@Rob: @nico: Tenho certeza que você está certo. Foi uma má escolha de exemplo. Normalmente, modelamos parâmetros farmacométricos como volume e depuração.
precisa saber é o seguinte
2

Fui ensinado que a mediana deve ser usada com intervalo e média com desvio padrão. Quando falamos de idade, acho que o alcance é uma maneira mais relevante de expressar a disseminação e mais fácil de entender para a maioria. Por exemplo, em uma população estudada, a idade média foi de 53 anos (DP 5,4) ou a idade mediana foi de 48 anos (faixa 23-77). Por esse motivo, eu preferiria usar mediana em vez de média. Mas eu ficaria muito interessado aqui, o que um estatístico ou profissional de estatísticas diria sobre o uso de média com intervalo? Eu vejo isso bastante em artigos científicos.

Susanne
fonte
Bem-vindo ao CV, Susanne. Se você postou isso na tentativa de obter respostas, exclua-o e publique-o novamente como uma nova pergunta. As orientações sobre como usar este site estão disponíveis em nossa Central de Ajuda .
whuber
1

A resposta de John em math.stackexchange pode ser vista da seguinte maneira:

Quando você tem uma distribuição assimétrica, a mediana pode ser uma estatística resumida melhor que a média.

Observe que, quando ele diz que há mais bebês do que adultos, ele sugere que a distribuição etária é distorcida.


fonte
Na verdade, acho que hoje em dia a inclinação em muitos países é mais para idosos, não para pequenos.
JM não é um estatístico
Talvez isso seja distorcido, mas o argumento geral permanece. Para distribuições distorcidas, uma mediana pode fazer mais sentido do que a média.
Acabei de atualizar minha resposta em math.stackexchange para enfatizar exatamente esse ponto. As pessoas procuram simetria e podem impor incorretamente simetria quando não existe. Ao relatar a mediana, você fornece uma resposta simétrica - a mediana divide a população pela metade - mesmo que a distribuição não seja simétrica.
John D. Cook
Essa resposta sempre parece um pouco furtiva para mim: quando as distribuições não são inclinadas (ou seja, são simétricas), a média é igual à mediana, portanto, dizer que a mediana é "melhor" quando a distribuição é inclinada é uma maneira de dizer "use apenas a mediana ".
Alexis
1

Espero que a idade média seja influenciada pelos valores discrepantes no seu conjunto de dados, embora esse não seja o caso para uma idade mediana. Vamos dar um exemplo de um conjunto de dados de pacientes vacinados: 1,2,3,4,4,5,6,6,6,78 anos, a média seria: 11,5 e a idade média desses pacientes é de 4,5. essa idade média foi afetada pela média discrepante de 78. é a melhor para lidar com conjuntos de dados da distribuição distorcida.

Eustache
fonte
Veja minha resposta ao User28.
Alexis
0

Certamente, no caso da análise demográfica, eu pensaria que tanto a média quanto a mediana seriam valiosas, especialmente em combinação umas com as outras, se você estiver procurando outliers ou áreas de crescimento que podem ser erroneamente rotuladas apenas pela mediana. Em comunidades com uma grande comunidade de aposentados ou em uma área com explosão da taxa de natalidade, a mediana por si só pode não fornecer uma imagem completa, e é aí que a média, em comparação, pode ser muito útil.

Matt L.
fonte