Se eu tiver um sistema de classificação por estrelas em que os usuários possam expressar sua preferência por um produto ou item, como posso detectar estatisticamente se os votos estão altamente "divididos". Ou seja, mesmo que a média seja 3 de 5, para um determinado produto, como posso detectar se essa é uma divisão de 1 a 5 em relação a um consenso 3, usando apenas os dados (sem métodos gráficos)
variance
average
dispersion
David Williams
fonte
fonte
Respostas:
Pode-se construir um índice de polarização; exatamente como se define depende do que constitui ser mais polarizado (ou seja, o que exatamente você quer dizer, em casos específicos de borda, por mais ou menos polarizado?):
Por exemplo, se a média for '4', uma divisão de 50 a 50 entre '3' e '5' é mais ou menos polarizada que 25% '1' e 75% '5'?
De qualquer forma, na ausência desse tipo de definição específica do que você quer dizer, vou sugerir uma medida baseada na variação:
Dada uma média específica, defina a divisão mais polarizada possível como a que maximiza a variação *.
* (NB que diria que 25% '1' e 75% '5' é substancialmente mais polarizado do que 50-50, divisão dos '3 e 5'; se isso não corresponder à sua intuição, não use variação)
Portanto, esse índice de polarização é a proporção da maior variação possível ( com a média observada ) na variação observada.
Chame a classificação médiam ( m=x¯ ).
A variação máxima ocorre quando uma proporçãop=m−14 está em5 e1−p está em1 ; isso tem uma variação de
(m−1)(5−m)⋅nn−1 .
Então, basta pegar a variação da amostra e dividir por(m−1)(5−m)⋅nn−1 ; isso fornece um número entre0 (concordância perfeita) e1 (completamente polarizado).
Para vários casos em que a classificação média é 4, isso daria o seguinte:
Você pode preferir não calculá-los em relação à maior variação possível com a mesma média, mas como uma porcentagem da maior variação possível para qualquer classificação média . Isso envolveria dividir por e, novamente, gera um valor entre 0 (concordância perfeita) e1(polarizado nos extremos na proporção de 50-50). Isso produziria as mesmas relatividades do diagrama acima, mas todos os valores seriam 3/4 maiores (ou seja, da esquerda para a direita, de cima para baixo, eles seriam 0, 16,5%, 25%, 25%, 50 % e 75%).4⋅nn−1 1
Qualquer uma das duas é uma opção perfeitamente válida - como qualquer outro número de maneiras alternativas de construir esse índice.
fonte
m = 1
você começa1 - 1 = 0
e0 / 0
. Como você corrige isso?"Nenhum método gráfico" é uma grande desvantagem, mas ... aqui estão algumas idéias estranhas. Ambos tratam as classificações como contínuas, o que é uma fraqueza conceitual, e provavelmente não é a única ...
Kurtosis
Regressão binomial negativa
Com um quadro de dados como este: Ajustar o modelo F r e q u o e n c y ~ R um t i n g + √
FWIW, aqui está o código r com o qual eu brinco :
Não resisto a jogar um enredo ...
ORating−−−−−−√
Editar: acabei de ver esta pergunta anunciada na barra lateral: e quando cliquei, vi-a nas perguntas da Hot Network, vinculando-se novamente, como às vezes acontece ,
então pensei que isso poderia merecer uma revisão de uma maneira mais geralmente útil. Decidi experimentar meus métodos nas avaliações de clientes da Amazon para Camiseta de manga curta The Mountain Three Wolf Moon :
x=rep(5:1,c(2273,198,89,54,208))
var(x)/(4*length(x)/(length(x)-1))
fonte
fonte
I doubt that I can add something valuable to the clever answers already given. In particular, to @Glen_b's fine idea to assess how the variance observed is relatively close to the maximal variance possible under the observed mean. My own blunt and straight from the shoulder proposal is, instead, about some robust measure of dispersion based not on deviations from some centre but directly on distances between data points.
Compute pairwise distances (absolute differences) between all the data points. Drop outdii zero distances. Compute a central tendency in the distribution of the distances (the choice is yours; it may be, for example, mean, median, or Hodges-Lehmann centre).
As you can see, the 3 statistics may be very different as measures of "polarization" (if I were to measure "disagreement" rather than bipolar confrontation, I would probably choose HL). The choice is yours. One notion: if you compute squared distances, their mean will be directly related to usual variance in the data (and so you will arrive at @Duncan's suggestion to compute variance). Computation of distances won't be too hard even with bigN here because the rating scale is descrete and with relatively few grades, so frequency-weighting algorithm to compute distances offers itself naturally.
fonte
How about, if the 3 star rating is smaller than the average of the 5 and 4, and also smaller than the average of the 1 and 2:
Off the top of my head I can't think of any situation in which that wouldn't work. Using the example above: Amazon customer reviews for The Mountain Three Wolf Moon Short Sleeve Tee:
In this case:
This would pass the test and be considered divided opinion.
fonte
I think what you are looking for is standard deviation:
I don't know what programming language this is, but here's a java method that will give you standard deviation:
fonte