Recentemente, fiz uma análise dos efeitos da reputação nos votos positivos (veja a publicação no blog ) e, posteriormente, fiz algumas perguntas sobre análises e gráficos possivelmente mais esclarecedores (ou mais apropriados).
Portanto, algumas perguntas (e sinta-se à vontade para responder a alguém em particular e ignorar as outras):
Em sua atual encarnação, não quis dizer centralizar o número do correio. Acho que o que isso faz é dar a aparência falsa de uma correlação negativa no gráfico de dispersão, pois há mais postagens no final da contagem de postagens (você vê que isso não acontece no painel Jon Skeet, apenas nos usuários mortais painel). Não é apropriado não centralizar o número da postagem (já que quero dizer centralizar a pontuação por pontuação média do usuário)?
Deveria ser óbvio a partir dos gráficos que a pontuação é altamente inclinada à direita (e a centralização média não mudou nada). Ao ajustar uma linha de regressão, encaixei os modelos lineares e um modelo usando os erros de areia Huber-White (via
rlm
no pacote MASS R ) e isso não fez nenhuma diferença nas estimativas de inclinação. Eu deveria ter considerado uma transformação nos dados em vez de uma regressão robusta? Observe que qualquer transformação teria que levar em conta a possibilidade de 0 e pontuações negativas. Ou devo ter usado algum outro tipo de modelo para contar dados em vez de OLS?Acredito que os dois últimos gráficos, em geral, poderiam ser melhorados (e também estão relacionados a estratégias de modelagem aprimoradas). Na minha opinião (cansado), eu suspeitaria que, se os efeitos da reputação forem reais, eles seriam percebidos bem cedo na história dos pôsteres (suponho que, se forem verdadeiros, eles podem ser reconsiderados "você deu algumas excelentes respostas, agora vou votar de novo em todos os seus postagens "em vez de" reputação por pontuação total "). Como posso criar um gráfico para demonstrar se isso é verdade, levando em consideração as plotagens em excesso? Eu pensei que talvez uma boa maneira de demonstrar isso fosse ajustar um modelo do formulário;
onde é o score - (mean score per user)
(o mesmo que está nos gráficos de dispersão atuais), é o post number
e são variáveis dummy que representam algum intervalo arbitrário de números de postagem (por exemplo, é igual a 1
se o número de postagem for 1 through 25
, é igual 1
se o número da postagem for 26 through 50
etc.). e são o termo grande interceptação e erro, respectivamente. Então eu examinaria apenas o γ estimadoinclinações para determinar se os efeitos da reputação apareceram no início de uma história de pôsteres (ou exibi-los graficamente). Essa é uma abordagem razoável (e apropriada)?
Parece popular ajustar algum tipo de linha de suavização não paramétrica a gráficos de dispersão como esses (como loess ou splines), mas minha experiência com splines não revelou nada esclarecedor (qualquer evidência de efeitos positivos no início da história dos pôsteres era leve e temperamental para o número de splines que eu incluí). Como tenho a hipótese de que os efeitos acontecem desde o início, minha abordagem de modelagem é mais razoável do que splines?
Observe também que apesar de eu ter cavado todos esses dados, ainda há muitas outras comunidades por aí para examinar (e algumas como superusuário e falha de servidor têm amostras igualmente grandes para extrair), por isso é bastante razoável sugerir no futuro análise que eu uso uma amostra de espera para examinar qualquer relacionamento.
Respostas:
É uma tentativa corajosa, mas somente com esses dados, será difícil ou impossível responder à sua pergunta de pesquisa sobre o "efeito da reputação nos votos positivos". O problema está na separação dos efeitos de outros fenômenos, que listo juntamente com breves indicações de como eles podem ser abordados.
Efeitos de aprendizagem . À medida que a reputação aumenta, a experiência aumenta; À medida que a experiência aumenta, esperamos que uma pessoa publique melhores perguntas e respostas; À medida que sua qualidade melhorar, esperamos mais votos por postagem. É concebível que uma maneira de lidar com isso em uma análise seria identificar pessoas que estão ativas em mais de um site SE . Em qualquer site, sua reputação aumentaria mais lentamente do que a quantidade de experiência, proporcionando assim uma maneira de separar a reputação e os efeitos de aprendizado.
Mudanças temporais no contexto. São inúmeras, mas as óbvias incluiriam
Alterações no número de eleitores ao longo do tempo , incluindo uma tendência geral ascendente, tendências sazonais (geralmente associadas a ciclos acadêmicos) e discrepâncias (decorrentes de publicidade externa, como links para tópicos específicos). Qualquer análise teria que levar isso em consideração ao avaliar tendências na reputação de qualquer indivíduo .
Mudanças nos costumes de uma comunidade ao longo do tempo . Comunidades e como elas interagem, evoluem e se desenvolvem. Com o tempo, eles tendem a votar com mais ou menos frequência. Qualquer análise teria que avaliar esse efeito e fatorá-lo .
O próprio tempo. Com o passar do tempo, as postagens anteriores permanecem disponíveis para pesquisa e continuam a receber votos. Assim, caeteris paribus , os postos mais antigos devem produzir mais votos do que os mais novos. (Esse é um efeito forte : algumas pessoas consistentemente altas nas ligas de reputação mensais não visitam este site o ano todo!) Isso ocultaria ou mesmo inverteria qualquer efeito positivo na reputação. Qualquer análise precisa levar em consideração o período de tempo em que cada postagem está presente no site .
Popularidade do assunto. Algumas tags (por exemplo, r ) são muito mais populares que outras. Assim, mudanças nos tipos de perguntas que uma pessoa responde podem ser confundidas com mudanças temporais, como um efeito de reputação. Portanto, qualquer análise precisa levar em consideração a natureza das perguntas que estão sendo respondidas.
Visualizações [adicionadas como uma edição]. As perguntas são visualizadas por diferentes números de pessoas por vários motivos (filtros, links etc.). É possível que o número de votos recebidos pelas respostas esteja relacionado ao número de visualizações, embora se esperasse uma proporção decrescente à medida que o número de visualizações aumenta. (É uma questão de quantas pessoas realmente interessadas na questão realmente a veem, não o número bruto. Minha própria experiência - anedótica - é que aproximadamente metade dos votos positivos que recebo em muitas perguntas vem nos primeiros 5 a 15 anos visualizações, embora eventualmente as perguntas sejam vistas centenas de vezes.) Portanto, qualquer análise precisa levar em consideração o número de visualizações, mas provavelmente não de maneira linear.
Dificuldades de medição. "Reputação" é a soma dos votos recebidos para diferentes atividades: reputação inicial, respostas, perguntas, perguntas de aprovação, edição de wikis de tags, votação decrescente e votação decrescente (em ordem decrescente de valor). Como esses componentes avaliam coisas diferentes, e nem todos estão sob o controle dos eleitores da comunidade, eles devem ser separados para análise . Presumivelmente, um "efeito reputação" está associado a votos positivos em respostas e, talvez, em perguntas, mas não deve afetar outras fontes de reputação. A reputação inicial definitivamente deve ser subtraída (mas talvez possa ser usada como proxy para uma quantidade inicial de experiência).
Fatores ocultos. Pode haver muitos outros fatores de confusão que são impossíveis de medir. Por exemplo, existem várias formas de "esgotamento" na participação em fóruns. O que as pessoas fazem após algumas semanas, meses ou anos iniciais de entusiasmo? Algumas possibilidades incluem o foco em questões raras, incomuns ou difíceis; fornecendo respostas apenas para perguntas não respondidas; fornecer menos respostas, mas de maior qualidade; etc. Alguns deles podem mascarar um efeito de reputação, enquanto outros podem ser confundidos por um. Uma proxy para esses fatores pode ser mudanças nas taxas de participação de um indivíduo : eles podem sinalizar mudanças na natureza das postagens dessa pessoa.
Fenômenos da subcomunidade. Uma análise minuciosa das estatísticas, mesmo em páginas SE muito ativas, mostra que um número relativamente pequeno de pessoas faz a maioria das perguntas e respostas. Uma camarilha tão pequena quanto duas ou três pessoas pode ter uma influência profunda no crescimento da reputação. Uma camarilha de duas pessoas será detectada pelos monitores internos do site (e um desses grupos existe neste site), mas grupos maiores provavelmente não serão. (Não estou falando de conluio formal: as pessoas podem ser membros de tais panelinhas sem nem mesmo estar cientes disso.) Como separaríamos um aparente efeito de reputação das atividades dessas panelinhas invisíveis, não detectadas e informais? Dados detalhados de votação podem ser usados como diagnóstico, mas não acredito que tenhamos acesso a esses dados.
Dados limitados. Para detectar um efeito de reputação, você provavelmente precisará se concentrar em indivíduos com dezenas a centenas de postagens (pelo menos). Isso reduz a população atual para menos de 50 indivíduos. Com toda a possibilidade de variação e confusão, isso é pequeno demais para provocar efeitos significativos, a menos que sejam realmente muito fortes. A solução é aumentar o conjunto de dados com registros de outros sites do SE .
Dadas todas essas complicações, deve ficar claro que os gráficos exploratórios no artigo do blog têm poucas chances de revelar algo, a menos que seja óbvio. Nada nos salta: como esperado, os dados são confusos e complicados. É prematuro recomendar melhorias nas plotagens ou na análise apresentada: alterações incrementais e análises adicionais não ajudarão até que essas questões fundamentais sejam abordadas .
fonte
No ponto 1: se você estava fazendo efeitos fixos manualmente, deveria centrar a variável de resposta e as variáveis explicativas. O pacote de regressão de dados do painel teria feito isso por você, mas a maneira econométrica oficial de analisar as coisas é subtrair a regressão "entre" da regressão "agrupada" (consulte o livro preto de Wooldridge ; não verifiquei a segunda edição, mas geralmente vejo a primeira edição como a melhor descrição do tipo livro didático dos dados do painel econométrico).
No seu ponto 2: é claro que os erros padrão de Eicker / White não afetarão suas estimativas de pontos; se o fizessem, isso indicaria uma implementação incorreta! No contexto de séries temporais, um estimador ainda mais apropriado é devido a Newey e West (1987) . Tentar transformações pode ajudar. Pessoalmente, sou um grande fã da transformação Box-Cox, mas no contexto da análise que você está realizando, é difícil fazer isso de forma limpa. Primeiro, você precisaria de um parâmetro de deslocamento em cima do parâmetro de forma, e os parâmetros de deslocamento são notoriamente difíceis de identificar em modelos como este. Segundo, você provavelmente precisaria de diferentes parâmetros de mudança / forma para pessoas diferentes, e / ou postagens diferentes e / ou ... (todo o inferno se soltando). Os dados de contagem também são uma opção, mas no contexto da modelagem média, uma regressão de Poisson é tão boa quanto a transformação do log, mas impõe uma suposição pesada de variação = média.
PS Você provavelmente poderia marcar isso com "dados longitudinais" e "séries temporais".
fonte
Várias outras alterações nos gráficos:
Modelar isso será mais difícil. Você pode considerar a regressão de Poisson. Francamente, porém, o desenvolvimento de bons gráficos é um método muito melhor de desenvolver idéias e habilidades. Comece a modelar depois de entender melhor os dados.
fonte
coplot()
.Whoa lá. (E eu quero dizer que, de uma maneira boa ;-)) Antes de prosseguir com os modelos, você precisa abordar o que está acontecendo com os dados.
Não vejo uma explicação para a curva muito peculiar no meio desse gráfico: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png
Ver essa curva me faz pensar que há algo muito estranho nesses pontos - que eles não são independentes um do outro e, em vez disso, refletem alguma sequência de observações da mesma fonte.
(Nota secundária: a titulação da trama "Correlação ..." é enganosa.)
fonte
Rep(t) - Rep(t-1)
pois os usuários podem obter reputação de outros lugares), o eixo X é a reputação atual (incluindo a reputação obtida nessa postagem). O eixo X é o que eu sugeri que deveria ser substituído (subtraindo os upvotes obtidos da resposta em questão que plotei no eixo Y).