Eu sei, isso pode parecer estranho, mas ouça.
No Stack Overflow e aqui obtemos votos nas postagens, tudo isso é armazenado em forma de tabela.
Por exemplo:
ID da postagem ID do eleitor tipo de voto datetime ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01
... e assim por diante. O tipo de voto 2 é um voto positivo, o tipo de voto 3 é um voto negativo. Você pode consultar uma versão anônima desses dados em http://data.stackexchange.com
Há uma percepção de que, se uma postagem atingir a pontuação de -1 ou menos, é mais provável que seja votada. Isso pode ser simplesmente um viés de confirmação ou pode estar enraizado na verdade.
Como analisaríamos esses dados para confirmar ou negar essa hipótese? Como mediríamos o efeito desse viés?
time-series
hypothesis-testing
data-mining
markov-process
censoring
Sam Saffron
fonte
fonte
Respostas:
Você pode usar um modelo de vários estados ou uma cadeia de Markov (o pacote msm no R é uma maneira de ajustá-los). Você pode ver se a probabilidade de transição de -1 para 0 é maior que de 0 para 1, 1 para 2 etc. Você também pode observar o tempo médio de -1 em comparação com os outros para ver se é menor. .
fonte
Conduzir um experimento. Votou aleatoriamente metade das novas postagens em um horário específico todos os dias.
fonte
Resumo da minha resposta. Eu gosto da modelagem da cadeia de Markov, mas ela perde o aspecto "temporal". Por outro lado, focar no aspecto temporal (por exemplo, tempo médio emé um intermediário do caso em que você apenas estima a probabilidade de transição e quando você mede apenas o tempo gasto em um determinado estado. Espero que esta ajuda.−1
mas na linha da sua pergunta, acho que você assume implicitamente que Isso significa que para existe uma sequência determinística modo que .
Dentro desse formalismo, sua pergunta pode ser reformulada como: "é provável que " (ou pelo menos a diferença seja maior que uma determinado limite).μ+−1−μ+0>0
Sob essa suposição, é fácil mostrar que é um [processo homogêneo de markov] [3] em com o gerador fornecido porYt Z Q
Respondendo à pergunta (propondo uma estimativa de probabilidade máxima para o problema estatístico) A partir dessa reformulação, a solução do problema é feita estimando e construindo um teste sobre seus valores. Vamos corrigir e esquecer o índice sem perda de generalidade. A estimativa de (e ) pode ser feita após a observação de(μ+i) i μ+ μ−
Se você esquecer o caso com o último estado de observação, os casais mencionados são iid de uma distribuição que depende de e : é distribuída como (onde Exp é uma var aleatória de uma distribuição exponencial e é + ou -1, dependendo de quem realiza o máximo). Em seguida, você pode usar o seguinte lema simples (a prova é direta): μ - i ( min ( E x p ( μ + i ) , E x p ( μ - i ) ) , η ) ημ+i μ−i (min(Exp(μ+i),Exp(μ−i)),η) η
Lema Se e , então, e .X+⇝Exp(μ+) X−⇝Exp(μ−) T=min(X+,X−)⇝Exp(μ++μ−) P(X+1<X−)=μ+μ++μ−
Isso implica que a densidade de é dada por: que para é a função de densidade de uma variável aleatória exponencial com o parâmetro . A partir dessa expressão, é fácil derivar o estimador de probabilidade máxima de e :f(t,ϵ) (T,η)
Comentários de abordagens mais avançadas
Se você deseja levar em consideração os casos em que é o último estado observado (certamente mais inteligente, porque quando você passa por , geralmente é sua última pontuação ...), é necessário modificar um pouco o raciocínio. A censura correspondente é relativamente clássica ...- 1i −1
Possível outra abordagem pode incluir a possibilidade de
fonte