Recentemente, li o conselho de que você geralmente deve usar mediana não para eliminar discrepâncias. Exemplo: o seguinte artigo http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/
possui 16 avaliações no momento:
review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1)
summary(review) ## "ordinary" summary
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 3.750 5.000 4.062 5.000 5.000
Como eles usam Mean, o artigo recebe 4 estrelas, mas se eles usassem a Mediana , receberiam 5 estrelas.
A mediana não é um juiz 'mais justo'?
Um experimento mostra que o erro da mediana é sempre maior que a média. A mediana é pior?
library(foreach)
#the overall population of bookjudgments
n<-5
p<-0.5
expected.value<-n*p
peoplesbelieve <-rbinom(10^6,n, p)
#16 ratings made for 100 books
ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16)
stat <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]), median=median(ratings[i,]))
#which mean square error is bigger? Mean's or Median's?
meansqrterror.mean<-mean((stat[,"mean"]-expected.value)^2)
meansqrterror.median<-mean((stat[,"median"]-expected.value)^2)
res<-paste("mean MSE",meansqrterror.mean)
res<-paste(res, "| median MSE", meansqrterror.median)
print(res)
Respostas:
O problema é que você realmente não definiu o que significa ter uma classificação boa ou justa. Você sugere em um comentário na resposta de @ Kevin que não goste se uma crítica ruim derrubar um item. Mas, comparando dois itens em que um tem um "registro perfeito" e o outro tem uma crítica ruim, talvez essa diferença deva ser refletida.
Existe todo um continuum (de alta dimensão) entre mediana e média. Você pode ordenar os votos por valor e, em seguida, fazer uma média ponderada com os pesos, dependendo da posição nessa ordem. A média corresponde a todos os pesos iguais, a mediana corresponde a apenas uma ou duas entradas no meio obtendo peso diferente de zero, uma média aparada corresponde a dar a todos, exceto o primeiro e o último casal, o mesmo peso, mas você também pode decidir ponderar o valor th de n amostras com peso 1k n ouexp(-(2k-1-n)211+(2k−1−n)2 , para lançar algo aleatório lá. Talvez uma média tão ponderada em que os discrepantes obtenham menos peso, mas ainda assim uma quantidade diferente de zero, possa combinar boas propriedades de mediana e média?exp(−(2k−1−n)2n2)
fonte
A resposta que você recebe depende da pergunta que você faz.
Média e mediana respondem a perguntas diferentes. Então eles dão respostas diferentes. Não é que um seja "mais justo" que outro. As medianas são frequentemente usadas com dados altamente distorcidos (como renda). Mas, mesmo lá, às vezes a média é melhor. E às vezes você não deseja QUALQUER medida da tendência central.
Além disso, sempre que você der uma medida de tendência central, deve dar uma medida de propagação. Os pares mais comuns são o desvio padrão da média e o intervalo interquartil mediano. Nesses dados, fornecer apenas uma mediana de 5 é, penso eu, enganoso ou, pelo menos, pouco informativo. A mediana também seria 5 se cada voto fosse um 5.
fonte
Se as únicas opções são números inteiros no intervalo de 1 a 5, alguém pode realmente ser considerado um erro externo?
fonte
Depende da função de custo que você usa.
MSE é minimizado por média. Portanto, se você usar a mediana do MSE, será sempre pior que a média.
MAS, se você usasse erro absoluto, a média seria pior!
Uma boa explicação sobre isso pode ser encontrada aqui: http://www.johnmyleswhite.com/notebook/2013/03/22/modes-medians-and-means-an-unifying-perspective/
A escolha depende do seu problema e preferências. Se você não deseja que os valores discrepantes tenham um grande impacto na posição do "ponto central", escolha mediana. Se você se importa com discrepâncias, escolhe má.
fonte
Apenas um pensamento rápido:
Se você presumir que cada classificação é extraída de uma variável contínua latente, poderá definir a mediana dessa variável contínua subjacente de interesse como seu valor de interesse, em vez da média dessa distribuição subjacente. Onde a distribuição é simétrica, a média e a mediana acabariam estimando as mesmas quantidades. Onde a distribuição é distorcida, a mediana seria diferente da média. Nesse caso, na minha opinião, a mediana corresponderia mais ao que pensamos ser o valor típico. Isso ajuda a entender por que a renda mediana e os preços medianos das casas são tipicamente relatados e não a média.
No entanto, quando você tem um pequeno número de valores discretos, a mediana apresenta um desempenho ruim.
Talvez você possa usar algum procedimento de estimativa de densidade e, em seguida, obter a mediana disso ou usar alguma mediana interpolada.
fonte
O melhor de usar a mediana para classificações por estrelas é que usuários inteligentes (cientes do uso da mediana) não "brincam" com o sistema:
Se um usuário racional acha que a classificação adequada deve ser 4 estrelas, mas atualmente possui 4,5 estrelas, a melhor maneira de chegar a quatro estrelas (supondo que haja mais de seis votos) é votar em 1 estrela em um sistema de classificação com base na média .
Enquanto em um sistema mediano, a escolha racional do usuário é simplesmente votar exatamente o número de estrelas que o usuário acha que o produto deve ter.
É o equivalente ao segundo leilão de preço para sistemas de classificação por estrelas.
fonte
Várias boas respostas ainda deixam espaço para mais comentários.
Primeiro, ninguém se opôs à idéia de que a mediana se destina a eliminar discrepâncias, mas eu a qualificarei. O significado pretendido é evidente, mas é fácil para dados reais serem mais complicados. No máximo, a mediana tem como objetivo descontar ou ignorar discrepâncias, mas mesmo isso não é garantido. Por exemplo, com classificações de 1 1 1 5 5 5, a mediana e a média concordam em 3, para que tudo possa parecer bom. Porém, um extra de 5 irá inclinar a mediana para 5 e um extra de 1 inclinará a mediana para 1. A média se moverá em cerca de 0,286 em cada caso. Portanto, a média aqui é mais resistente que a mediana. O exemplo pode ser descartado como incomum, mas não é escandaloso. O ponto não é original, naturalmente. Um lugar que é feito é em Mosteller, F. e Tukey, JW 1977. Análise e Regressão de Dados.Reading, MA: Addison-Wesley, pp.34-35.
Segundo, os meios aparados foram mencionados e a ideia merece um impulso maior. Média e mediana não precisam ser alternativas definitivas, de modo que o analista deve escolher (votar em) um ou outro. Você pode considerar todas as médias aparadas possíveis com base no corte de um determinado número de valores em cada cauda . A tabela mostra como # o número de valores incluídos no cálculo da média:
A imagem principal aqui é que você pode escolher sua taxa de desconto (ignorar tantos valores em cada cauda como suspeita) como um tipo de seguro contra o risco de ficar de folga por causa de valores extremos. O que vejo é um gradiente bastante suave entre média e mediana, o que é esperado aqui, porque os possíveis valores 1, 2, 3, 4, 5 estão todos presentes nos dados. É esperado um grande salto na sequência com um outlier isolado.
Não há obrigação com os meios aparados de aparar números iguais em cada cauda, mas não vou expandir isso.
Terceiro, o exemplo é de análises da Amazon. O contexto é sempre pertinente para orientar como você deseja resumir os dados . No caso das críticas da Amazon, a melhor resposta é ler as críticas! Como notas altas e baixas podem ser falsas (implicitamente: o autor deste livro é meu amigo) e / ou irrelevantes para sua decisão (explicitamente: o revendedor me tratou mal), não há para mim um óbvio implicação de como resumir esses dados e realmente mostrando a distribuição que a Amazon está sendo maximamente informativa.
Quarto, e mais elementar, mas também fundamental de todos, quem está fazendo você escolher? Às vezes, média e mediana devem ser relatadas (e, como dito, também um gráfico de distribuição).
fonte