Temos um problema de "piedade de votos"?

51

Eu sei, isso pode parecer estranho, mas ouça.

No Stack Overflow e aqui obtemos votos nas postagens, tudo isso é armazenado em forma de tabela.

Por exemplo:

ID da postagem ID do eleitor tipo de voto datetime
------- -------- --------- --------
10 1 2 2000-1-1 10:00:01 
11 3 3 2000-1-1 10:00:01 
10 5 2 2000-1-1 10:00:01 

... e assim por diante. O tipo de voto 2 é um voto positivo, o tipo de voto 3 é um voto negativo. Você pode consultar uma versão anônima desses dados em http://data.stackexchange.com

Há uma percepção de que, se uma postagem atingir a pontuação de -1 ou menos, é mais provável que seja votada. Isso pode ser simplesmente um viés de confirmação ou pode estar enraizado na verdade.

Como analisaríamos esses dados para confirmar ou negar essa hipótese? Como mediríamos o efeito desse viés?

Sam Saffron
fonte
11
podemos obter um exemplo da consulta? Nem todo mundo é bem versado em escrever instruções SQL. Ter dados de amostra pode incentivar as pessoas a tentarem brincar com eles. +1 para a pergunta.
Mvctas
Os votos do @Jeff são anonimizados, você só pode obter informações parciais do despejo de dados, ele inclui todas as transições, embora haja uma amostra rápida de dados.stackexchange.com/stackoverflow/q/101738 dados anonimizados completos estão disponíveis no despejo de dados público
Sam Açafrão
Por que apenas votos positivos? Como a probabilidade de votação para cima ou para baixo se divide em torno de cada valor em particular seria certamente interessante?
perfil completo de Bob Durrant
@Bob, com certeza concordam que seria
Sam Saffron
11
Eu já vi outros tipos de sites ofuscar votos (ou seja, adicionar ruído antes de exibi-los) e, às vezes, até ocultar completamente os votos positivos e negativos por um curto período, a fim de evitar várias formas de oscilação de banda, votos de piedade e outros 'sociais' elementos de votação.
Glen_b

Respostas:

32

Você pode usar um modelo de vários estados ou uma cadeia de Markov (o pacote msm no R é uma maneira de ajustá-los). Você pode ver se a probabilidade de transição de -1 para 0 é maior que de 0 para 1, 1 para 2 etc. Você também pode observar o tempo médio de -1 em comparação com os outros para ver se é menor. .

Greg Snow
fonte
3
+1 ótima referência. Há um artigo no Journal of Statistical Software sobre o pacote msm. O modelo parece ideal para esse tipo de tarefa.
Mvctas
3
A ideia do modelo de cadeia de Markov parece ser boa, mas o tempo médio em -1 não dará toda a história. É possível (e plausível - pense em perguntas ruins) que é mais provável que alguém receba voto negativo em -1 do que em outros lugares também.
perfil completo de Bob Durrant
Acho que o que se pode querer fazer primeiro é agrupar as trajetórias de voto - aquelas que recebem (quase) apenas votos negativos (perguntas muito populares / muito ruins) e aquelas que são mais controversas. Então você pode fazer cadeias de Markov nas três classes.
Jonas
13

Conduzir um experimento. Votou aleatoriamente metade das novas postagens em um horário específico todos os dias.

charles.y.zheng
fonte
5
Legal, devemos observar um aumento significativo nos distintivos "críticos" e provavelmente uma diminuição na motivação dos novos usuários :-) É melhor começar com usuários de alta reputação, neste caso (com risco de influenciar o experimento!)
chl
14
Na verdade, podemos fazer melhor do que isso ... usando o teste AB, podemos exibir metade da pergunta -1 votada no site como 0 e metade como -1 ... e ver se é mais provável que um dos grupos seja votado! Engenhoso.
Sam Saffron
4
A ideia do experimento controla a qualidade das postagens, mas (1) os que estão sendo rebaixados devem concordar com antecedência em participar do experimento e (2) após um breve período de tempo, os rebaixamentos devem ser removidos.
Zbicyclist
2
+1 (e +1 a todos os comentários aqui também): um experimento reversível controlado , comunicado previamente a todos os usuários que possam ser afetados e conduzidos com a aprovação deles, é uma das formas mais fortes de obter essas informações.
whuber
13

Resumo da minha resposta. Eu gosto da modelagem da cadeia de Markov, mas ela perde o aspecto "temporal". Por outro lado, focar no aspecto temporal (por exemplo, tempo médio emé um intermediário do caso em que você apenas estima a probabilidade de transição e quando você mede apenas o tempo gasto em um determinado estado. Espero que esta ajuda.1

(VDi)i1(Si)i1

Yt=Yt+Yt

Yt+=i=01VDit,Si=1 and Yt=i=01VDit,Si=1

ϵ

λtϵ=limdt01dtP(Yt+dtϵYtϵ=1|Ft)
ϵ+Ft
Ft=σ(Yt+,Yt,VD1,,VDYt++Yt,S1,,SYt++Yt)

mas na linha da sua pergunta, acho que você assume implicitamente que Isso significa que para existe uma sequência determinística modo que .

P(Yt+dtϵYtϵ=1|Ft)=P(Yt+dtϵYtϵ=1|Yt)
ϵ=+,(μiϵ)iZλtϵ=μYtϵ

Dentro desse formalismo, sua pergunta pode ser reformulada como: "é provável que " (ou pelo menos a diferença seja maior que uma determinado limite).μ1+μ0+>0

Sob essa suposição, é fácil mostrar que é um [processo homogêneo de markov] [3] em com o gerador fornecido porYtZQ

i,jZQi,i+1=μi+Qi,i1=μiQii=1(μi++μi)Qij=0 if |ij|>1

Respondendo à pergunta (propondo uma estimativa de probabilidade máxima para o problema estatístico) A partir dessa reformulação, a solução do problema é feita estimando e construindo um teste sobre seus valores. Vamos corrigir e esquecer o índice sem perda de generalidade. A estimativa de (e ) pode ser feita após a observação de(μi+)iμ+μ

(T1,η1),,(Tp,ηp) que são os comprimentos de dos períodos gastos no estado (ou seja, tempos sucessivos com ) e é se a pergunta foi votada, se ela foi votada e se foi o último estado de observação.TjjthpiYt=iηj+110

Se você esquecer o caso com o último estado de observação, os casais mencionados são iid de uma distribuição que depende de e : é distribuída como (onde Exp é uma var aleatória de uma distribuição exponencial e é + ou -1, dependendo de quem realiza o máximo). Em seguida, você pode usar o seguinte lema simples (a prova é direta): μ - i ( min ( E x p ( μ + i ) , E x p ( μ - i ) ) , η ) ημi+μi(min(Exp(μi+),Exp(μi)),η)η

Lema Se e , então, e . X+Exp(μ+)XExp(μ)T=min(X+,X)Exp(μ++μ)P(X+1<X)=μ+μ++μ

Isso implica que a densidade de é dada por: que para é a função de densidade de uma variável aleatória exponencial com o parâmetro . A partir dessa expressão, é fácil derivar o estimador de probabilidade máxima de e :f(t,ϵ)(T,η)

f(t,ϵ)=gμ++μ(1(ϵ=+1)μ++1(ϵ=1)μμ++μ)
gaa>0aμ+μ

(μ^+,μ^)=argminln(μ+μ+)((μ+μ+)i=1pTi+p)pln(μ)p+ln(μ+)
quee.p + = | i : δ i = + 1 |p=|i:δi=1|p+=|i:δi=+1|

Comentários de abordagens mais avançadas

Se você deseja levar em consideração os casos em que é o último estado observado (certamente mais inteligente, porque quando você passa por , geralmente é sua última pontuação ...), é necessário modificar um pouco o raciocínio. A censura correspondente é relativamente clássica ...- 1i1

Possível outra abordagem pode incluir a possibilidade de

  • Ter uma intensidade que diminui com o tempo
  • Tendo uma intensidade que diminui com o tempo gasto desde a última votação (eu prefiro este. Nesse caso, há uma maneira clássica de modelar como a densidade diminui ...
  • Você pode supor que é uma função suave de iμi+i
  • .... você pode propor outras idéias!
Robin Girard
fonte