Estou tentando montar um pacote de mineração de dados para sites StackExchange e, em particular, estou tentando determinar as perguntas "mais interessantes". Gostaria de usar a pontuação da pergunta, mas remover o viés devido ao número de visualizações, mas não sei como abordar isso com rigor.
No mundo ideal, eu poderia classificar as perguntas calculando , em que é o total de votos é o número de visualizações. Afinal, ele mediria a porcentagem de pessoas que votaram na pergunta, menos a porcentagem de pessoas que votaram na pergunta.
Infelizmente, o padrão de votação é muito mais complicado. Os votos tendem a "atingir o platô" até um certo nível e isso tem o efeito de subestimar drasticamente as questões amplamente populares. Na prática, uma pergunta com 1 visualização e 1 votação positiva certamente teria pontuação e seria classificada mais alta do que qualquer outra questão com 10.000 visualizações, mas com menos de 10.000 votos.
Atualmente, estou usando como uma fórmula empírica, mas gostaria de ser preciso. Como posso abordar esse problema com rigor matemático?
Para abordar alguns dos comentários, tentarei reafirmar o problema de uma maneira melhor:
Digamos que eu tenha uma pergunta com total de votos e visualizações. Gostaria de poder estimar qual total de votos é mais provável quando as visualizações atingirem .
Dessa maneira, eu poderia simplesmente escolher um valor nominal para e ordenar toda a pergunta de acordo com o total esperado de .v 1
Criei duas consultas no datadump SO para mostrar melhor o efeito de que estou falando:
Média de visualizações por pontuação
Resultado:
Pontuação média por visualizações (intervalos de 100 visualizações)
Resultado:
Resultados, não tenho certeza se a linha reta é melhor: ( em azul, em vermelho) v
fonte
Respostas:
Pode-se definir uma pergunta interessante como aquela que recebeu comparativamente muitos votos, dado o número de visualizações. Para esse fim, você pode criar uma curva de linha de base que reflita o número esperado de votos, dadas as visualizações. Curvas que atraíram muito mais votos do que a linha de base foram consideradas particularmente interessantes.
Para construir a linha de base, convém calcular o número médio de votos por bandeja de 100 visualizações. Além disso, você pode calcular o desvio médio absoluto (MAD) como uma medida robusta para o desvio padrão por posição. Então, "interesse" pode ser calculado como
fonte
Esta é a minha teoria. Eu acho que existem dois tipos de perguntas: aquelas que permanecem principalmente dentro do SE (que geralmente têm menos visualizações) e aquelas que são vistas por pessoas de fora porque estavam vinculadas de outro lugar (geralmente têm mais visualizações).
Para as questões que permanecem principalmente no SE, os votos são uma boa medida de perguntas interessantes. Este é o ponto de votação.
Quando uma pergunta é vinculada a fora do site, os votos param de significar muito. Alguns sites de ligação podem ter muito poucos membros do SE, outros podem ter mais. A variação do número de votos para essas perguntas é provavelmente alta (como evidenciado pela sua pontuação versus gráfico de visualização, onde o lado direito da curva brota). Essas perguntas terão mais visualizações e as visualizações PODEM ser um melhor indicador de perguntas interessantes. Ou perguntas que uma comunidade maior achou mais interessante. Existem muitas variáveis nessa situação e acho que vale a pena tentar encontrar mais informações para diferenciar esses casos. O SE divulga informações de referência?
fonte