Quando usar média vs mediana

7

Eu sou novo em ciência de dados e estatísticas, então isso pode parecer uma pergunta para iniciantes.

Estou trabalhando em um conjunto de dados em que os seguidores do Twitter do usuário ganham por dia. Quero medir o crescimento médio que ele teve ao longo de um período de tempo, o que fiz ao encontrar a média de crescimento. Mas alguém está me sugerindo usar mediana para isso.

Alguém pode explicar em que caso de uso devemos usar a média e quando usar a mediana?

Mukul Jain
fonte

Respostas:

10

A média aritmética é denotada comox¯

x¯=1ni=1nxi

onde cada representa uma observação única. A média aritmética mede o valor médio para um determinado conjunto de números.xi

Em contraste com isso, a mediana é o valor que cai diretamente no meio do seu conjunto de dados. A mediana é especialmente útil quando você está lidando com uma ampla faixa ou quando existe um valor externo (um número muito alto ou baixo comparado ao restante) que distorceria a média.

Por exemplo, os salários são geralmente discutidos usando medianas. Isso devido à grande disparidade entre a maioria das pessoas e muito poucas pessoas com muito dinheiro (com as poucas pessoas com muito dinheiro sendo os valores extremos). Assim, olhar para o indivíduo com percentil 50% dará um valor mais representativo do que a média nessa circunstância.

Como alternativa, as notas são geralmente descritas usando a média (média), porque a maioria dos estudantes deve estar perto da média e poucos estarão muito abaixo ou muito acima.

JahKnows
fonte
11
Essa é uma ótima resposta. Então, se eu penso assim, posso plotar meus dados e ver se os valores são contínuos, então podemos usar a média e se eles estiverem mais agrupados (alguns altos e outros baixos), a mediana seria melhor, certo?
Mukul Jain
11
@MukulJain, Sim, depende da distribuição dos dados como você mencionou. A plotagem é sempre o meu caminho para obter uma noção dos meus dados. Fácil de detectar anomalias e ter uma idéia de sua propagação.
JahKnows
Eu acho que você poderia explicar isso melhor usar o termo "outlier"
MilkyWay90
11
Portanto, se os dados têm muitos valores discrepantes, é bom usar a mediana, certo? Outliers podem ser calculados utilizando-z pontuação (<3 ou> -3)
Mukul Jain
11
@MukulJain, correto, e você pode também discrepantes calcular usando p-valor,
JahKnows
13

Depende da pergunta que você está tentando responder. Você está olhando para a taxa de mudança de uma série temporal e parece que você está tentando mostrar como isso mudou ao longo do tempo. A média fornece ao leitor uma visão intuitiva: eles podem estimar trivialmente o número de seguidores em qualquer data dias desde o início, multiplicando pela taxa média de mudança.d

A desvantagem dessa métrica única é que ela não ilustra algo muito comum em séries como essa: a taxa de mudança não é fixa ao longo do tempo. Uma métrica razoável para dar aos leitores uma idéia de se a taxa de mudança é estática está dando a eles a mediana. Se eles souberem o mínimo da série (presumivelmente zero no seu caso), o valor atual, a média e a mediana, eles poderão, em muitos casos, "sentir" o quão linear o aumento foi.

Há um grande relato de advertência no quarteto de Anscombe - quatro séries temporais completamente diferentes, as quais compartilham várias medidas estatísticas importantes. Basicamente, ele sempre volta ao que você está tentando responder. Você está tentando encontrar usuários que provavelmente se destacarão em breve? Usuários que estão acumulando seguidores ano a ano? Um hit pergunta? Botnets?

Como você provavelmente adivinhou, isso significa que não é possível chamar universalmente média ou mediana "melhor" que a outra.

l0b0
fonte
2

Simplesmente para dizer: se seus dados estiverem corrompidos com ruído ou dizer número errado de seguidores no twitter, como no seu caso, Tomar média como métrica pode ser prejudicial, pois o modelo terá um desempenho ruim. Nesse caso, se você tomar a mediana dos valores, ele cuidará dos valores discrepantes nos dados. Espero que ajude

karthikeyan mg
fonte
1

Frequentemente, a mediana é mais robusta a um valor extremo a ser medido. Tente pensar nisso como uma tarefa de minimização. A mediana corresponde à perda absoluta, enquanto a média corresponde à perda quadrada.

nan hu
fonte
1

Eu me pego explicando muito isso e o exemplo que uso é a famosa versão de Bill Gates. Bill Gates está na sua aula de ciência de dados. Seu instrutor pergunta: qual é a renda média ou o patrimônio líquido dessa classe? Bill Gates, timidamente, obriga e informa qual é a renda dele. Agora, quando você diz que a renda média do seu grupo é de um zilhão de dólares - tecnicamente correta, mas não descreve a realidade -, Bill Gates é um exagero que distorce tudo.

Então você alinha todas as pessoas do seu grupo em ordem crescente ou decrescente - seja lá o que a pessoa do meio estiver fazendo - essa é a sua mediana. Neste exemplo, é provável que todos, menos Bill Gates, estejam distantes dessa mediana, e Bill Gates será o único a aproximar-se da média.

Agora diga que o amigo Bill Gates está contratando um gerente de dinheiro. Com base nos retornos que eles produziram até agora. Ele deveria olhar para os retornos médios em um período de 10 anos ou o retorno médio ou uma combinação dos dois? Eles superaram o mercado a cada ano? Alguns anos? Como o tamanho do portfólio é fatorado? No caso dos seguidores do Twitter, Obama teria um crescimento diferente em comparação com alguém com, digamos, 500 mil a 1 milhão de seguidores. Como @ l0b0 faz alusão à sua excelente resposta - tudo depende. Você está medindo o crescimento do seguidor ou a taxa de mudança do crescimento do seguidor e qual é a pergunta que você está tentando responder, estratégia / produto que está tentando desenvolver - de acordo com a escolha da média ou mediana. Obter a média e a mediana é sempre a parte mais fácil. É sempre melhor nunca ter a média de 2,1 filhos. Tem um número inteiro de filhos. Mas o que você pode dizer sobre as taxas de crescimento populacional se o número médio de crianças for 2,1 e a mediana for 1 ou 2? Ou mediana é 3 ou mais? O crescimento está acelerando ou desacelerando? O que o modo está fazendo? Calcule todos os conceitos básicos primeiro - e depois pergunte o motivo pelo qual você está usando média versus mediana.

armipunk
fonte