A "classificação média" da Amazon é enganosa?

49

Se bem entendi, as classificações de livros em uma escala de 1 a 5 são pontuações do Likert. Ou seja, um 3 para mim pode não ser necessariamente um 3 para outra pessoa. É uma IMO em escala ordinal. Não se deve realmente medir escalas ordinais, mas definitivamente pode-se usar o modo, mediana e percentis.

Então, não há problema em desobedecer as regras, já que grande parte da população entende meios além das estatísticas acima? Embora a comunidade de pesquisa repreenda fortemente a média dos dados da escala Likert, é bom fazer isso com as massas (na prática)? Tomar a média neste caso é mesmo enganoso para começar?

Parece improvável que uma empresa como a Amazon se atrapalhe com as estatísticas básicas, mas se não, então o que estou perdendo aqui? Podemos afirmar que a escala ordinal é uma aproximação conveniente ao ordinal para justificar a média? Por que motivos?

mean ordinal-data likert Doutorado
fonte

3

Se o 3 para você não é o mesmo que o 3 para outra pessoa, você nem tem uma escala: você tem uma coleção de medidas incomparáveis e há pouco significado que você pode fazer para resumi-las. O que torna uma escala ordinal é que (a) os valores podem ser comparados, então seus 3 e meus 3 significam a mesma coisa, mas (b) as diferenças numéricas de valores não têm sentido, exceto os sinais, de modo que (digamos) dois 3, 4 e um 2, ou um 5 e um 1 podem ser colocados em qualquer ordem, embora numericamente cada par de classificações tenha a mesma média e mediana.

whuber

11

@whuber - mas não é verdade que duas pessoas podem não compartilhar a mesma opinião em uma escala de 1 a 9 sobre os números? Um 6 para mim pode, na verdade, não ser um 6 para outra pessoa, a menos que tenha uma escala predefinida.

PhD

11

Li recentemente uma resenha na amazon que dizia: "O produto brilhante não pode culpá-lo. Eu nunca daria nada a 5 estrelas, por isso concedeu 4". Se isso não distorcer a média, então eu não sei o que faz

Matt Wilko

2

@ Wilko Você está falando sobre diferenças de opinião, não diferenças de escala. Mesmo quando uma balança é calibrada com muito cuidado, como na (digamos) pontuação para ginástica ou patinação artística ou na escala internacional para classificar a dificuldade das corredeiras nos rios, e mesmo quando os especialistas são treinados para usá-la, ainda haverá variação. Isso geralmente não é interpretado como evidência de que a escala é subjetiva: é interpretada como variação entre os juízes.

whuber

11

Desculpe, esta não é realmente uma resposta, mas infelizmente não consegui encontrar a função "comentar". Recentemente, comecei a escrever minha tese de mestrado sobre os principais elementos das análises de clientes. Considerando as seguintes circunstâncias, comecei também a duvidar da importância do sistema de classificação de 5 estrelas da Amazon. - Número de avaliações de desconfiança - efeitos da polarização classificações e J-Curvas ( buildingreputation.com/writings/2009

derPio

42

Benefícios do uso da média para resumir a tendência central de uma classificação de 5 pontos

Como o @gung mencionou, acho que muitas vezes existem boas razões para considerar a média de um item de cinco pontos como um índice de tendência central. Eu já descrevi esses motivos aqui .

Parafrasear:

a média é fácil de calcular

A média é intuitiva e bem compreendida

A média é um número único

Outros índices geralmente geram classificação de objetos semelhante

Por que a média é boa para a Amazon

Pense nos objetivos da Amazon em relatar a média. Eles podem ter como objetivo

fornecer uma classificação intuitiva e compreensível para um item
garantir a aceitação pelo usuário do sistema de classificação
garantir que as pessoas entendam o que a classificação significa para que possam usá-la adequadamente para informar as decisões de compra

A Amazon fornece algum tipo de média arredondada, a contagem de frequências para cada opção de classificação e o tamanho da amostra (ou seja, número de classificações). Presumivelmente, essas informações são suficientes para que a maioria das pessoas aprecie o sentimento geral sobre o item e a confiança nessa classificação (ou seja, é mais provável que um 4.5 com 20 classificações seja preciso do que um 4.5 com 2 classificações; um item com 10 5 classificações de uma estrela e uma classificação de uma estrela sem comentários ainda podem ser um bom item).

Você pode até ver o meio como uma opção democrática. Muitas eleições são decididas com base em qual candidato obtém a maior média em uma escala de dois pontos. Da mesma forma, se você argumentar que cada pessoa que envia uma revisão obtém uma votação, pode ver a média como um formulário que avalia o voto de cada pessoa igualmente.

As diferenças no uso da escala são realmente um problema?

Há uma grande variedade de vieses de classificação conhecidos na literatura psicológica (para uma revisão, ver Saal et al 1980), como viés de tendência central, viés de leniência, viés de rigidez. Além disso, alguns avaliadores serão mais arbitrários e outros serão mais confiáveis. Alguns podem até mentir sistematicamente, dando avaliações positivas ou negativas falsas. Isso criará várias formas de erro ao tentar calcular a classificação média verdadeira para um item.

No entanto, se você coletar uma amostra aleatória da população, esses vieses serão cancelados e, com uma amostra suficiente de avaliadores, você ainda obterá a verdadeira média.

Obviamente, você não obtém uma amostra aleatória na Amazon e existe o risco de que o conjunto específico de avaliadores que você obtém para um item seja sistematicamente tendencioso para ser mais branda ou rigoroso e assim por diante. Dito isso, acho que os usuários da Amazon apreciariam que as classificações enviadas pelos usuários venham de uma amostra imperfeita. Também acho que é bem provável que, com um tamanho de amostra razoável, em muitos casos, a maioria das diferenças de viés de resposta comecem a desaparecer.

Possíveis avanços além da média

Em termos de melhorar a precisão da classificação, eu não questionaria o conceito geral de média, mas acho que existem outras maneiras de estimar a classificação média da população real para um item (ou seja, a classificação média que seria obtida uma amostra representativa grande solicitada a classificar o item).

Avaliadores de peso com base em sua confiabilidade
Use um sistema de classificação bayesiano que estima a classificação média como uma soma ponderada da classificação média para todos os itens e a média do item específico e aumente a ponderação para o item específico à medida que o número de classificações aumenta
Ajuste as informações de um avaliador com base em qualquer tendência geral de classificação entre itens (por exemplo, um 5 de alguém que normalmente dá 3s valeria mais do que alguém que normalmente dá 4s).

Portanto, se a precisão na classificação era o objetivo principal da Amazon, acho que deveria tentar aumentar o número de classificações por item e adotar algumas das estratégias acima. Tais abordagens podem ser particularmente relevantes ao criar as melhores classificações. No entanto, para a humilde classificação na página, pode ser que a média da amostra atenda melhor aos objetivos de simplicidade e transparência.

Referências

Saal, FE, Downey, RG e Lahey, MA (1980). Classificando as classificações: Avaliando a qualidade psicométrica dos dados de classificação. Psychological Bulletin, 88, 413.

Jeromy Anglim
fonte

11

+1. Eu acho que isso vai além / amplia sua resposta anterior de uma maneira muito agradável. Gosto especialmente da seção 'por que a média é boa para a Amazon', que enumera mais claramente o que eu estava tentando entender na minha última frase. 'Diferentes usos de uma escala' também é bastante perspicaz; Gostaria de citar uma revisão dessa literatura, se você souber de uma boa. Observo, porém, que a última seção está um pouco em tensão com a 2ª.

gung - Restabelece Monica

2

Obrigado. Adicionei uma referência à literatura de viés de classificação e, no final, acrescentei algo que tenta reconciliar as duas perspectivas.

Jeromy Anglim

2

+1 @JeromyAnglim - uma perspectiva completa que lança luz sobre os vários aspectos do problema. Parabéns!

PhD

+1, ótima resposta. Embora eu tenha achado uma frase um pouco enganadora. Quando você disse "No entanto, se você coletar uma amostra aleatória da população, esses vieses serão cancelados e, com uma amostra suficiente de avaliadores, você ainda obterá a verdadeira média". - Não acho que isso se aplique a todos os preconceitos, mesmo se você tivesse uma amostra aleatória da população.

Michael Bishop

11

@ MichaelBishop Obrigado, eu concordo que meu idioma era um pouco desleixado lá. Eu acho que depende do que se entende por "verdadeiro meio". Eu posso ver como se você tem falsificadores na população, isso pode influenciar a média não ajustada da população para longe de uma hipotética "média verdadeira". Eu estava pensando mais que quaisquer preconceitos sistemáticos de indivíduos que se aplicassem a todos os itens seriam cancelados para permitir uma ordenação imparcial dos itens com base na média resultante.

21413 Jeremy

15

Para ser um pouco técnico aqui, essas classificações não são na verdade uma escala Likert ; são apenas classificações ordinais. Agora, tendo dito isso, seu argumento está essencialmente correto. No entanto, muitas vezes penso que muito é feito sobre esse problema. Uma coisa a notar é que geralmente se entende que a média de um número de itens ordinais pode ser aproximadamente um intervalo e, portanto, quando há muitas classificações, a média se torna uma representação mais razoável. Eu achei esta resposta do @JeromyAnglim excelente (realmente, vale a pena ler a pergunta e todas as respostas que os acompanham). Para um tratamento mais teórico, veja aqui. Em uma nota diferente, eu gosto da Amazon, mas não vejo razão para esperar sofisticação estatística deles, especialmente em termos de design básico do site - o ponto é a usabilidade pelos consumidores, para não impressionar os professores de estatística.

- Reinstate Monica
fonte

2

A Amazon tem sido uma das líderes na indústria de tecnologia (internet) em design experimental para publicidade on-line e uso de sites. Você pode ter certeza de que eles são realmente sofisticados em suas abordagens estatísticas. :-) Seu ponto é bom. Para dar um pequeno passo adiante, você pode imaginar se a Amazon estava fazendo algo "mais sofisticado" e alguém as verificou usando uma média simples, descobriu que alguns itens eram classificados "mais altos" que a média e outros "mais baixos", elevando um barulho e deixando a Amazon para tentar explicar seus "vieses ocultos" em relação aos produtos?

cardeal

11

Outros serviços, como o Netflix, evitam esse problema fornecendo apenas os dados "resumidos". :)

cardeal

@ cardinal, isso é muito interessante, eu não sabia disso sobre a Amazon.

gung - Restabelece Monica

15

Todo mundo tem boas opiniões sobre isso. Eu realmente não acho que posso adicionar muito mais. No entanto, vou postar isso :

inspectorG4dget
fonte

7

Eu acho que os quadrinhos destacam que algumas pessoas são juízes ruins da qualidade de um item e, ao calcular a média de muitas dessas pessoas, você obtém uma média ruim. Em geral, a sabedoria das multidões sugere que as médias têm um desempenho razoavelmente bom quando pelo menos uma proporção razoável de pessoas tem algum conhecimento. A ponderação das classificações por confiabilidade também pode ser uma estratégia para superar problemas.

perfil completo de Jeromy Anglim

11

A outra opção é usar as recomendações do estilo Netflix, comparando sua classificação com as de outros usuários e, em seguida, calculando a média das classificações oferecidas pelos usuários com opções semelhantes às suas.

rahul

11

@rahul Esse é um bom ponto. Na minha resposta, às vezes, assumo que as classificações são em grande parte verdadeiras pontuação + erro, mesmo que haja estrutura para o erro. Mas quando se trata de domínios em que a preferência pessoal faz parte da definição de qualidade, isso nem sempre faz tanto sentido.

21413 Jeremy

Eu gosto disso, e é por isso que (como consumidor) tento ler os comentários e não apenas olhar o número de estrelas. Mas eu pensei que era irônico que, neste caso, os métodos mais "sofisticados" de mediana, moda e percentis todos dão um pior resultado do que média ;-)

Darren Cozinhe

3

Na minha experiência, a média dos dados na escala de classificação é frequentemente a mais correlacionada com o nível de métricas do mundo real que tentamos associar à escala de classificação. Encontramos muitas relações lineares, e a média é, portanto, uma das melhores maneiras de resumir os dados. Dito isto, como Jeromy apontou, a maioria das maneiras de analisar a tendência central de uma escala de classificação fornecerá resultados semelhantes (ordens de classificação, etc.) na maioria das vezes.

Além disso, suspeito que a Amazon provavelmente não esteja tão preocupada com a validade científica de uma maneira ou de outra. O objetivo da Amazon, no final, é fazer com que as pessoas comprem mais no Amazon.com, e a maneira como as revisões ajudam a alcançar isso provavelmente não variará de acordo com o resumo de um número usado. Bons produtos serão recompensados, produtos realmente ruins serão punidos e compradores nervosos terão a chance de revisar os prós e os contras com mais detalhes.

Jonathan
fonte

2

As classificações da Amazon são enganosas devido às empresas que jogam o sistema. Quando os clientes recebem descontos e mercadorias grátis em troca de críticas de 5 estrelas, as "estatísticas" de qual é o número ou o significado das classificações tornam-se discutíveis.

John
fonte

11

Você tem dados sobre a frequência com que essas coisas acontecem?