Eu sou novo em ciência de dados e estatísticas, então isso pode parecer uma pergunta para iniciantes.
Estou trabalhando em um conjunto de dados em que os seguidores do Twitter do usuário ganham por dia. Quero medir o crescimento médio que ele teve ao longo de um período de tempo, o que fiz ao encontrar a média de crescimento. Mas alguém está me sugerindo usar mediana para isso.
Alguém pode explicar em que caso de uso devemos usar a média e quando usar a mediana?
fonte
Depende da pergunta que você está tentando responder. Você está olhando para a taxa de mudança de uma série temporal e parece que você está tentando mostrar como isso mudou ao longo do tempo. A média fornece ao leitor uma visão intuitiva: eles podem estimar trivialmente o número de seguidores em qualquer data dias desde o início, multiplicando pela taxa média de mudança.d
A desvantagem dessa métrica única é que ela não ilustra algo muito comum em séries como essa: a taxa de mudança não é fixa ao longo do tempo. Uma métrica razoável para dar aos leitores uma idéia de se a taxa de mudança é estática está dando a eles a mediana. Se eles souberem o mínimo da série (presumivelmente zero no seu caso), o valor atual, a média e a mediana, eles poderão, em muitos casos, "sentir" o quão linear o aumento foi.
Há um grande relato de advertência no quarteto de Anscombe - quatro séries temporais completamente diferentes, as quais compartilham várias medidas estatísticas importantes. Basicamente, ele sempre volta ao que você está tentando responder. Você está tentando encontrar usuários que provavelmente se destacarão em breve? Usuários que estão acumulando seguidores ano a ano? Um hit pergunta? Botnets?
Como você provavelmente adivinhou, isso significa que não é possível chamar universalmente média ou mediana "melhor" que a outra.
fonte
Simplesmente para dizer: se seus dados estiverem corrompidos com ruído ou dizer número errado de seguidores no twitter, como no seu caso, Tomar média como métrica pode ser prejudicial, pois o modelo terá um desempenho ruim. Nesse caso, se você tomar a mediana dos valores, ele cuidará dos valores discrepantes nos dados. Espero que ajude
fonte
Frequentemente, a mediana é mais robusta a um valor extremo a ser medido. Tente pensar nisso como uma tarefa de minimização. A mediana corresponde à perda absoluta, enquanto a média corresponde à perda quadrada.
fonte
Eu me pego explicando muito isso e o exemplo que uso é a famosa versão de Bill Gates. Bill Gates está na sua aula de ciência de dados. Seu instrutor pergunta: qual é a renda média ou o patrimônio líquido dessa classe? Bill Gates, timidamente, obriga e informa qual é a renda dele. Agora, quando você diz que a renda média do seu grupo é de um zilhão de dólares - tecnicamente correta, mas não descreve a realidade -, Bill Gates é um exagero que distorce tudo.
Então você alinha todas as pessoas do seu grupo em ordem crescente ou decrescente - seja lá o que a pessoa do meio estiver fazendo - essa é a sua mediana. Neste exemplo, é provável que todos, menos Bill Gates, estejam distantes dessa mediana, e Bill Gates será o único a aproximar-se da média.
Agora diga que o amigo Bill Gates está contratando um gerente de dinheiro. Com base nos retornos que eles produziram até agora. Ele deveria olhar para os retornos médios em um período de 10 anos ou o retorno médio ou uma combinação dos dois? Eles superaram o mercado a cada ano? Alguns anos? Como o tamanho do portfólio é fatorado? No caso dos seguidores do Twitter, Obama teria um crescimento diferente em comparação com alguém com, digamos, 500 mil a 1 milhão de seguidores. Como @ l0b0 faz alusão à sua excelente resposta - tudo depende. Você está medindo o crescimento do seguidor ou a taxa de mudança do crescimento do seguidor e qual é a pergunta que você está tentando responder, estratégia / produto que está tentando desenvolver - de acordo com a escolha da média ou mediana. Obter a média e a mediana é sempre a parte mais fácil. É sempre melhor nunca ter a média de 2,1 filhos. Tem um número inteiro de filhos. Mas o que você pode dizer sobre as taxas de crescimento populacional se o número médio de crianças for 2,1 e a mediana for 1 ou 2? Ou mediana é 3 ou mais? O crescimento está acelerando ou desacelerando? O que o modo está fazendo? Calcule todos os conceitos básicos primeiro - e depois pergunte o motivo pelo qual você está usando média versus mediana.
fonte