Ponderar um sistema de classificação para favorecer itens com classificação alta por mais pessoas do que itens com classificação alta por menos pessoas?

9

Agradecemos antecipadamente por me acompanhar, não sou um estatístico de nenhum tipo e não sei como descrever o que estou imaginando; portanto, o Google não está me ajudando aqui ...

Estou incluindo um sistema de classificação em um aplicativo da Web em que estou trabalhando. Cada usuário pode avaliar cada item exatamente uma vez.

Eu estava imaginando uma escala com 4 valores: "não gosto muito", "não gosto", "gosto" e "gosto muito", e planejei atribuir esses valores de -5, -2, +2 e +5 respectivamente .

Agora, se cada item tivesse o mesmo número de classificações, eu ficaria bastante confortável com esse sistema de pontuação ao diferenciar claramente os itens mais curtidos e menos curtidos. No entanto, os itens não terão o mesmo número de classificações e a disparidade entre o número de votos em fotos diferentes pode ser bastante dramática.

Nesse caso, comparar as pontuações acumuladas em dois itens significa que um item antigo com muitas classificações medíocres terá uma pontuação muito maior do que um item novo excepcional com muito menos votos.

Então, a primeira coisa óbvia que pensei em fazer uma média ... mas agora, se um item tem apenas uma classificação de "+5", ele tem uma média melhor do que um item que tem uma pontuação de 99 "+5" e 1 "+2" classificação. Intuitivamente, essa não é uma representação precisa da popularidade de um item.

Eu imagino que esse problema seja comum e vocês não precisam que eu o elabore com mais exemplos, então pararei nesse ponto e elaborarei comentários, se necessário.

Minhas perguntas são:

  1. Como se chama esse tipo de problema e existe um termo para as técnicas usadas para resolvê-lo? Eu gostaria de saber isso para que eu possa ler sobre isso.
  2. Se você souber de algum recurso para leigos sobre o assunto, eu gostaria muito de receber um link.
  3. Por fim, gostaria de receber outras sugestões sobre como coletar e analisar efetivamente esse tipo de dados.
Andrew
fonte

Respostas:

14

Uma maneira de combater isso é usar proporções em cada categoria, o que não exige que você coloque números para cada categoria (você pode deixar 80% classificado como "fortemente gosta"). No entanto, as proporções sofrem com o pequeno número de emissões de ratings . Isso mostra no seu exemplo que a foto com classificação 1 +5 obteria uma pontuação média (e proporção) mais alta do que aquela com a classificação 99 +5 e 1 +2. Isso não se encaixa bem com minha intuição (e eu suspeito que a maioria das pessoas).

Uma maneira de contornar esse pequeno problema de tamanho de amostra é usar uma técnica bayesiana conhecida como " regra de sucessão de Laplace " (pesquisar esse termo pode ser útil). Simplesmente envolve adicionar 1 "observação" a cada categoria antes de calcular as probabilidades. Se você quiser calcular uma média para um valor numérico, sugiro uma média ponderada em que os pesos sejam as probabilidades calculadas pela regra de sucessão.

nsd,nd,nl,nslnsl=1,nsd=nd=nl=0nsl=99,nl=1,nsd=nd=0

Pr("Strongly Like")=nsl+1nsd+nd+nl+nsl+4

1+11+0+0+0+4=2599+199+1+0+0+4=1001041199100

As respectivas pontuações são dadas apenas pela média ponderada, que escrevi abaixo como:

Score=5nsl+1nsd+nd+nl+nsl+4+2nl+1nsd+nd+nl+nsl+42nd+1nsd+nd+nl+nsl+45nsd+1nsd+nd+nl+nsl+4

Ou mais sucintamente como

Score=5nsl+2nl2nd5nsdnsd+nd+nl+nsl+4

55=1 14971044.8

Isso pode ter sido um pouco "matemático", então deixe-me saber se você precisar de mais explicações.

probabilityislogic
fonte
Isso foi um pouco "matemático" para mim, e inicialmente eu não entendi a fórmula, mas li com cuidado cerca de três vezes e clicou! Era exatamente isso que eu procurava, e sua explicação foi muito clara, mesmo para alguém que não é matemático ou estatístico. Muito obrigado!
Andrew
2
Resposta não técnica muito boa e uma abordagem que eu não teria pensado em mim. Eu apenas acrescentaria que é possível adicionar qualquer número de 'observações' falsas a cada categoria em vez de 1, incluindo números não inteiros. Isso lhe dá flexibilidade para decidir quanto você quer "encolher" para zerar a pontuação dos itens com poucos votos. E se você desejar uma descrição técnica desse método, poderá dizer que está realizando uma análise bayesiana de dados de uma distribuição multinomial usando um Dirichlet simétrico anterior.
onestop
11
Embora possam parecer observações "falsas", elas têm um significado bem definido quando é +1 (em oposição a +2 ou superior, que realmente são números "falsos" ou números de uma coleta de dados anterior). Basicamente, descreve um estado de conhecimento em que é possível votar em cada categoria antes de observar qualquer dado. É exatamente isso que o plano anterior no (N-1) simplex faz.
probabilityislogic
Mais uma observação, para futuras pessoas que encontrarem este post: Ao implementar isso no meu modelo, peguei a pontuação final e a multipliquei por 20, o que dá um intervalo de -100 a 100, da pior à melhor possível (embora eu suponha que tecnicamente aqueles são limites que você nunca consegue alcançar, mas você entendeu). Isso torna a saída para os usuários do meu aplicativo muito intuitiva!
Andrew
@ probabilityislogic: certamente algum parâmetro estritamente positivo para o Dirichlet descreve anteriormente que todas as probabilidades estão estritamente entre 0 e 1? E esse argumento sugere defini-los para 2 / m, onde m é o número de categorias, em vez de 1: en.wikipedia.org/wiki/…
onestop
2

Eu adotaria uma abordagem gráfica. O eixo x pode ter classificação média e y pode ser o número de classificações. Eu costumava fazer isso com estatísticas esportivas para comparar a contribuição de fenômenos jovens com a de estrelas veteranas. Quanto mais próximo o ponto estiver do canto superior direito, mais próximo do ideal. Obviamente, decidir sobre o "melhor" item ainda seria uma decisão subjetiva, mas isso forneceria alguma estrutura.

Se você deseja plotar a classificação média em relação a outra variável, pode configurar o número de classificações como a terceira variável usando o tamanho da bolha, em uma plotagem de bolha - por exemplo, em XL ou SAS.

rolando2
fonte