Como posso melhorar minha análise dos efeitos da reputação na votação?

15

Recentemente, fiz uma análise dos efeitos da reputação nos votos positivos (veja a publicação no blog ) e, posteriormente, fiz algumas perguntas sobre análises e gráficos possivelmente mais esclarecedores (ou mais apropriados).

Portanto, algumas perguntas (e sinta-se à vontade para responder a alguém em particular e ignorar as outras):

  1. Em sua atual encarnação, não quis dizer centralizar o número do correio. Acho que o que isso faz é dar a aparência falsa de uma correlação negativa no gráfico de dispersão, pois há mais postagens no final da contagem de postagens (você vê que isso não acontece no painel Jon Skeet, apenas nos usuários mortais painel). Não é apropriado não centralizar o número da postagem (já que quero dizer centralizar a pontuação por pontuação média do usuário)?

  2. Deveria ser óbvio a partir dos gráficos que a pontuação é altamente inclinada à direita (e a centralização média não mudou nada). Ao ajustar uma linha de regressão, encaixei os modelos lineares e um modelo usando os erros de areia Huber-White (via rlmno pacote MASS R ) e isso não fez nenhuma diferença nas estimativas de inclinação. Eu deveria ter considerado uma transformação nos dados em vez de uma regressão robusta? Observe que qualquer transformação teria que levar em conta a possibilidade de 0 e pontuações negativas. Ou devo ter usado algum outro tipo de modelo para contar dados em vez de OLS?

  3. Acredito que os dois últimos gráficos, em geral, poderiam ser melhorados (e também estão relacionados a estratégias de modelagem aprimoradas). Na minha opinião (cansado), eu suspeitaria que, se os efeitos da reputação forem reais, eles seriam percebidos bem cedo na história dos pôsteres (suponho que, se forem verdadeiros, eles podem ser reconsiderados "você deu algumas excelentes respostas, agora vou votar de novo em todos os seus postagens "em vez de" reputação por pontuação total "). Como posso criar um gráfico para demonstrar se isso é verdade, levando em consideração as plotagens em excesso? Eu pensei que talvez uma boa maneira de demonstrar isso fosse ajustar um modelo do formulário;

Y=β0+β1(X1)+α1(Z1)+α2(Z2)αk(Zk)+γ1(Z1X1)γk(ZkX1)+ϵ

onde Y é o score - (mean score per user)(o mesmo que está nos gráficos de dispersão atuais), X1 é o post numbere Z1Zk são variáveis ​​dummy que representam algum intervalo arbitrário de números de postagem (por exemplo, Z1 é igual a 1se o número de postagem for 1 through 25, Z2 é igual 1se o número da postagem for 26 through 50etc.). β0 e ϵ são o termo grande interceptação e erro, respectivamente. Então eu examinaria apenas o γ estimadoγinclinações para determinar se os efeitos da reputação apareceram no início de uma história de pôsteres (ou exibi-los graficamente). Essa é uma abordagem razoável (e apropriada)?

Parece popular ajustar algum tipo de linha de suavização não paramétrica a gráficos de dispersão como esses (como loess ou splines), mas minha experiência com splines não revelou nada esclarecedor (qualquer evidência de efeitos positivos no início da história dos pôsteres era leve e temperamental para o número de splines que eu incluí). Como tenho a hipótese de que os efeitos acontecem desde o início, minha abordagem de modelagem é mais razoável do que splines?

Observe também que apesar de eu ter cavado todos esses dados, ainda há muitas outras comunidades por aí para examinar (e algumas como superusuário e falha de servidor têm amostras igualmente grandes para extrair), por isso é bastante razoável sugerir no futuro análise que eu uso uma amostra de espera para examinar qualquer relacionamento.

Andy W
fonte
Atualmente, fiz algumas anotações sobre minha primeira pergunta e elas podem ser encontradas aqui . No momento, não tenho certeza se devo postar isso como resposta à minha própria pergunta ou abrir uma pergunta separada (já que isso se concentra amplamente na visualização de dados). Mas fique à vontade para deixar um comentário sobre o documento do Google, aqui ou na sala de bate - papo .
Andy W

Respostas:

14

É uma tentativa corajosa, mas somente com esses dados, será difícil ou impossível responder à sua pergunta de pesquisa sobre o "efeito da reputação nos votos positivos". O problema está na separação dos efeitos de outros fenômenos, que listo juntamente com breves indicações de como eles podem ser abordados.

  • Efeitos de aprendizagem . À medida que a reputação aumenta, a experiência aumenta; À medida que a experiência aumenta, esperamos que uma pessoa publique melhores perguntas e respostas; À medida que sua qualidade melhorar, esperamos mais votos por postagem. É concebível que uma maneira de lidar com isso em uma análise seria identificar pessoas que estão ativas em mais de um site SE . Em qualquer site, sua reputação aumentaria mais lentamente do que a quantidade de experiência, proporcionando assim uma maneira de separar a reputação e os efeitos de aprendizado.

  • Mudanças temporais no contexto. São inúmeras, mas as óbvias incluiriam

    • Alterações no número de eleitores ao longo do tempo , incluindo uma tendência geral ascendente, tendências sazonais (geralmente associadas a ciclos acadêmicos) e discrepâncias (decorrentes de publicidade externa, como links para tópicos específicos). Qualquer análise teria que levar isso em consideração ao avaliar tendências na reputação de qualquer indivíduo .

    • Mudanças nos costumes de uma comunidade ao longo do tempo . Comunidades e como elas interagem, evoluem e se desenvolvem. Com o tempo, eles tendem a votar com mais ou menos frequência. Qualquer análise teria que avaliar esse efeito e fatorá-lo .

    • O próprio tempo. Com o passar do tempo, as postagens anteriores permanecem disponíveis para pesquisa e continuam a receber votos. Assim, caeteris paribus , os postos mais antigos devem produzir mais votos do que os mais novos. (Esse é um efeito forte : algumas pessoas consistentemente altas nas ligas de reputação mensais não visitam este site o ano todo!) Isso ocultaria ou mesmo inverteria qualquer efeito positivo na reputação. Qualquer análise precisa levar em consideração o período de tempo em que cada postagem está presente no site .

  • Popularidade do assunto. Algumas tags (por exemplo, ) são muito mais populares que outras. Assim, mudanças nos tipos de perguntas que uma pessoa responde podem ser confundidas com mudanças temporais, como um efeito de reputação. Portanto, qualquer análise precisa levar em consideração a natureza das perguntas que estão sendo respondidas.

  • Visualizações [adicionadas como uma edição]. As perguntas são visualizadas por diferentes números de pessoas por vários motivos (filtros, links etc.). É possível que o número de votos recebidos pelas respostas esteja relacionado ao número de visualizações, embora se esperasse uma proporção decrescente à medida que o número de visualizações aumenta. (É uma questão de quantas pessoas realmente interessadas na questão realmente a veem, não o número bruto. Minha própria experiência - anedótica - é que aproximadamente metade dos votos positivos que recebo em muitas perguntas vem nos primeiros 5 a 15 anos visualizações, embora eventualmente as perguntas sejam vistas centenas de vezes.) Portanto, qualquer análise precisa levar em consideração o número de visualizações, mas provavelmente não de maneira linear.

  • Dificuldades de medição. "Reputação" é a soma dos votos recebidos para diferentes atividades: reputação inicial, respostas, perguntas, perguntas de aprovação, edição de wikis de tags, votação decrescente e votação decrescente (em ordem decrescente de valor). Como esses componentes avaliam coisas diferentes, e nem todos estão sob o controle dos eleitores da comunidade, eles devem ser separados para análise . Presumivelmente, um "efeito reputação" está associado a votos positivos em respostas e, talvez, em perguntas, mas não deve afetar outras fontes de reputação. A reputação inicial definitivamente deve ser subtraída (mas talvez possa ser usada como proxy para uma quantidade inicial de experiência).

  • Fatores ocultos. Pode haver muitos outros fatores de confusão que são impossíveis de medir. Por exemplo, existem várias formas de "esgotamento" na participação em fóruns. O que as pessoas fazem após algumas semanas, meses ou anos iniciais de entusiasmo? Algumas possibilidades incluem o foco em questões raras, incomuns ou difíceis; fornecendo respostas apenas para perguntas não respondidas; fornecer menos respostas, mas de maior qualidade; etc. Alguns deles podem mascarar um efeito de reputação, enquanto outros podem ser confundidos por um. Uma proxy para esses fatores pode ser mudanças nas taxas de participação de um indivíduo : eles podem sinalizar mudanças na natureza das postagens dessa pessoa.

  • Fenômenos da subcomunidade. Uma análise minuciosa das estatísticas, mesmo em páginas SE muito ativas, mostra que um número relativamente pequeno de pessoas faz a maioria das perguntas e respostas. Uma camarilha tão pequena quanto duas ou três pessoas pode ter uma influência profunda no crescimento da reputação. Uma camarilha de duas pessoas será detectada pelos monitores internos do site (e um desses grupos existe neste site), mas grupos maiores provavelmente não serão. (Não estou falando de conluio formal: as pessoas podem ser membros de tais panelinhas sem nem mesmo estar cientes disso.) Como separaríamos um aparente efeito de reputação das atividades dessas panelinhas invisíveis, não detectadas e informais? Dados detalhados de votação podem ser usados ​​como diagnóstico, mas não acredito que tenhamos acesso a esses dados.

  • Dados limitados. Para detectar um efeito de reputação, você provavelmente precisará se concentrar em indivíduos com dezenas a centenas de postagens (pelo menos). Isso reduz a população atual para menos de 50 indivíduos. Com toda a possibilidade de variação e confusão, isso é pequeno demais para provocar efeitos significativos, a menos que sejam realmente muito fortes. A solução é aumentar o conjunto de dados com registros de outros sites do SE .

Dadas todas essas complicações, deve ficar claro que os gráficos exploratórios no artigo do blog têm poucas chances de revelar algo, a menos que seja óbvio. Nada nos salta: como esperado, os dados são confusos e complicados. É prematuro recomendar melhorias nas plotagens ou na análise apresentada: alterações incrementais e análises adicionais não ajudarão até que essas questões fundamentais sejam abordadas .

whuber
fonte
Obrigado pela resposta. Dada a amplitude da crítica, não poderei abordar adequadamente todas as sugestões nos comentários (vou ter que pensar em outro local, talvez apenas postar outro documento do Google). Mas direi agora que não acho impossível responder (na medida em que alguém possa responder qualquer coisa com dados observacionais como esse). No mínimo, dadas as limitações de possíveis conflitos, pode-se ver se os efeitos da reputação são consistentes com as evidências disponíveis.
21711 Andy
@ Andy: Eu acho que a confusão é substancial e generalizada, de modo que, mesmo que pareça um efeito de reputação, poderia ser um artefato: você não poderá tirar nenhuma conclusão válida a menos que tenha resolvido esses problemas. Claro que posso estar errado, mas o ônus da prova está em você.
whuber
o "se parece que existe um efeito de reputação" é a principal declaração (a meu ver). A maioria dos conflitos que você apresentou seria ambiguamente relacionada a uma reputação / número de postagem / histórico de pôsteres ou seria teoricamente esperado que aumentasse a pontuação dos pôsteres nas respostas mais adiante em sua história. Se não encontrar evidência de efeitos de reputação, muitos dos possíveis conflitos não podem ser usados ​​para explicar sua ausência.
Andy W
@ Andy Mas pelo menos um pode, e isso é o suficiente. Isso inclui fatores ocultos, popularidade do sujeito e mudanças temporais no contexto. Se você não lidar explicitamente com tudo isso na análise, suas conclusões serão suspeitas. Uma olhada nos registros mostra que a popularidade dos sujeitos e as mudanças temporais são enormes; suas influências potenciais inundam o que podemos razoavelmente esperar que os efeitos da reputação sejam de uma ordem de magnitude.
whuber
2
@ cardinal, mesmo sem uma definição formal, seria possível que um pequeno número de pessoas tivesse um impacto considerável nos padrões de votação (que é o que eu assumo que whuber está se referindo neste contexto). O post médio de Jon Skeet foi de apenas 5 votos positivos. Se, de repente, uma pessoa decide aprovar todas as suas respostas, isso pode ter um impacto substancial, dada a baixa pontuação média, para começar.
21711 Andy W no dia
5

YtZtYt=a0+a1Yt1+a2Zt1+ϵtZt=b0+b1Yt1+b2Zt1+δta2ZYZYtΔYt=YtYt1YtFχ2T-1T-1/2YtZtuma0 0uma1uma2

No ponto 1: se você estava fazendo efeitos fixos manualmente, deveria centrar a variável de resposta e as variáveis ​​explicativas. O pacote de regressão de dados do painel teria feito isso por você, mas a maneira econométrica oficial de analisar as coisas é subtrair a regressão "entre" da regressão "agrupada" (consulte o livro preto de Wooldridge ; não verifiquei a segunda edição, mas geralmente vejo a primeira edição como a melhor descrição do tipo livro didático dos dados do painel econométrico).

No seu ponto 2: é claro que os erros padrão de Eicker / White não afetarão suas estimativas de pontos; se o fizessem, isso indicaria uma implementação incorreta! No contexto de séries temporais, um estimador ainda mais apropriado é devido a Newey e West (1987) . Tentar transformações pode ajudar. Pessoalmente, sou um grande fã da transformação Box-Cox, mas no contexto da análise que você está realizando, é difícil fazer isso de forma limpa. Primeiro, você precisaria de um parâmetro de deslocamento em cima do parâmetro de forma, e os parâmetros de deslocamento são notoriamente difíceis de identificar em modelos como este. Segundo, você provavelmente precisaria de diferentes parâmetros de mudança / forma para pessoas diferentes, e / ou postagens diferentes e / ou ... (todo o inferno se soltando). Os dados de contagem também são uma opção, mas no contexto da modelagem média, uma regressão de Poisson é tão boa quanto a transformação do log, mas impõe uma suposição pesada de variação = média.

PS Você provavelmente poderia marcar isso com "dados longitudinais" e "séries temporais".

StasK
fonte
obrigado pela resposta e alguns comentários / perguntas. Concordo que deveria pelo menos ter explorado uma abordagem de séries temporais mais explícita nesses dados (nem verifiquei se havia alguma evidência de autocorrelação nos resíduos). Existem mais algumas complicações, embora na modelagem de séries temporais desses dados (o que é t? E a pontuação em si seja dinâmica e não seja fixa por número de postagem), também não haveria necessidade de uma regressão prevendo Z_t, eu sei perfeitamente o que Z_t é uma função de!
21711 Andy W no dia
Também duvido que a pontuação não seja estacionária, o que faz você pensar que é?
Andy W
No mínimo, é provavelmente heterocedástico: algumas postagens são interessantes, recebem muitos hits e muitas votações, enquanto outras são pequenos esclarecimentos ou perguntas e respostas do tipo RTFM- "Leia este link". Isso, por si só, tecnicamente a tornaria não estacionária. É claro que a estacionariedade é uma suposição testável, mas com dados malucos como esses, você provavelmente desejaria estar muito seguro em ser excessivamente conservador nos métodos de análise (ou, como mencionei, estar ciente de que os resultados podem ser esquisito).
Stask
Estou um pouco confuso com o último comentário. Como os fatores exógenos que afetam a pontuação de uma resposta tornam a série heterocedástica (suponho que você queira dizer que a variação da pontuação se torna maior / menor com o número do post?) E qual a relevância disso para a pergunta em questão?
21811 Andy W no dia
Uma série temporal é estacionária se as distribuições marginais em todos os momentos forem iguais. Portanto, mesmo que você tenha a mesma média, uma variação variável tornará a série não estacionária. Um exemplo são os modelos (G) ARCH para os quais um prêmio Nobel foi concedido no início dos anos 2000. Mas nesses dados, eu esperaria algumas mudanças na média também. Se o público do site crescer, então, para uma determinada qualidade de resposta, é provável que você receba mais votos, o que provavelmente aumentará a média e a variação das pontuações.
Stask
3

Várias outras alterações nos gráficos:

  1. Faixas quantílicas para a pontuação da resposta versus a reputação anterior. (Lotes 1 e 3)
  2. Gráficos de densidade para Skeet versus outros, estratificados por número de post (Gráfico 3)
  3. Considere estratificar por número de postagens concorrentes
  4. Estratificar pelo tempo (pode-se continuar ganhando pontos muito depois que a pergunta foi feita)

Modelar isso será mais difícil. Você pode considerar a regressão de Poisson. Francamente, porém, o desenvolvimento de bons gráficos é um método muito melhor de desenvolver idéias e habilidades. Comece a modelar depois de entender melhor os dados.

Iterador
fonte
(+1) Depois de deixar o post por algum tempo, percebi que visualizar a densidade dos pontos parece ser uma solução muito melhor do que tentar visualizar os pontos em si (embora não tenha muita certeza do que você quer dizer com "estratificar por a postagem # "). Também acho que planejar os quantis estimados parece uma boa ideia, embora para os lotes 1 e 2 provavelmente esteja apenas na nuvem massiva. Novamente, também não sei o que significa "estratificar pelo tempo" neste contexto; veja o comentário de Brad Larson no post do blog e minha resposta em relação a isso.
Andy W
Também duvido muito que posts concorrentes tenham algo a ver com os relacionamentos observados. Você acha que as pessoas com alta reputação postaram tópicos com respostas mais concorrentes no início de sua história? Suas sugestões sobre a inclusão de outras covariáveis ​​parecem estar em conflito com a sugestão para evitar a modelagem e o foco nos gráficos.
Andy W
A ideia por trás dos posts concorrentes é de natureza exploratória. A motivação para responder não tem nada a ver com isso. Em relação à modelagem, não sou contra a modelagem em si, mas você ainda não está pronto para fazê-lo até entender melhor os dados. Se você não entender os dados, não entenderá os modelos.
Iterator
Ao estratificar pela postagem #, estou sugerindo que você bin as postagens. Pode estar em uma escala de intervalo, como 0-100 posts, 101-200, etc. Ou em uma escala quantil: divida os usuários pelos que estão no arquivo inferior a 10% do total de posts, 20%, etc. Porque o Skeet tem tantas postagens, é melhor compará-lo ao seu grupo de colegas, mas é difícil compará-lo a um grupo de pessoas com exatamente o mesmo número de postagens - separar os dados pode ajudar.
Iterator
Btw, para a estratificação, você pode usar coplot().
Iterator
1

Whoa lá. (E eu quero dizer que, de uma maneira boa ;-)) Antes de prosseguir com os modelos, você precisa abordar o que está acontecendo com os dados.

Não vejo uma explicação para a curva muito peculiar no meio desse gráfico: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

Ver essa curva me faz pensar que há algo muito estranho nesses pontos - que eles não são independentes um do outro e, em vez disso, refletem alguma sequência de observações da mesma fonte.

(Nota secundária: a titulação da trama "Correlação ..." é enganosa.)

Iterador
fonte
5
Essa curva parece estranha por causa da escolha estranha de escalas nos eixos. Ele reflete respostas que contribuíram com a maior parte da reputação de um usuário: a pergunta de um post. É exponencial porque o eixo y é linear enquanto o eixo x é logarítmico. Você realmente deve ignorar tudo o que estiver associado à reputação de log menos que2porque, para muitos usuários, é aí que as reputações deles começam e você deve considerar quase tudo para as reputações de log menor que3ser apenas barulho. Como tal, 99% deste gráfico é dedicado à exibição desse ruído: não há muita informação lá.
whuber
Essa curva pode ser explicada pela natureza de como a reputação está relacionada aos votos positivos e é provável que as pessoas tenham postado uma resposta e tenham adquirido toda a reputação com essa única resposta (posso entrar em mais detalhes sobre por que esse é provavelmente o caso, se necessário) . Se eu tivesse plotado a reputação atual menos a reputação do post mais atual, isso teria resolvido a maior parte do tempo (também essas observações não têm nada a ver com a análise subsequente). Você gostaria de elaborar uma correlação que é enganosa?
Andy W
@ Whuber, acho que não diria nada abaixo de 10 ^ 3 é apenas ruído. Certamente, uma teoria dos efeitos da reputação deve ser aplicável quando a reputação está ausente. Também dou boas-vindas a quaisquer melhorias sugeridas para as parcelas (não há muita informação em nenhuma das parcelas!) #
499 Andy W
Obrigado. Para o título, não há cálculo da correlação. É apenas um gráfico disperso de pontuação marginal versus reputação. Exceto, como você e o @whuber mencionam, não é realmente a pontuação marginal: ela deve ser deltaRep (ou Rep (t) - Rep (t-1)) versus Rep (t-1).
Iterator
1
@ Iterator, corrija a última declaração (10 pontos por votação inicial), mas ainda parece que você pode estar confuso com o que estou tramando com a outra declaração. O eixo Y não é reputação, mas o número de votos positivos para a postagem mais recente (isso não é necessariamente, Rep(t) - Rep(t-1)pois os usuários podem obter reputação de outros lugares), o eixo X é a reputação atual (incluindo a reputação obtida nessa postagem). O eixo X é o que eu sugeri que deveria ser substituído (subtraindo os upvotes obtidos da resposta em questão que plotei no eixo Y).
Andy W