A publicação "Hunting of the Snark" de Joel Spolsky é válida na análise estatística de conteúdo?

Se você está lendo os boletins da comunidade recentemente, provavelmente viu The Hunting of the Snark, uma publicação no blog oficial do StackExchange de Joel Spolsky, CEO da rede StackExchange. Ele discute uma análise estatística realizada em uma amostra de comentários do SE para avaliar sua "simpatia" da perspectiva de um usuário externo. Os comentários foram amostrados aleatoriamente no StackOverflow e os analistas de conteúdo eram membros da comunidade Mechanical Turk da Amazon, um mercado de trabalho que conecta empresas a trabalhadores que realizam tarefas pequenas e curtas por taxas acessíveis.

Há pouco tempo, eu era um estudante de graduação em ciências políticas e uma das aulas que fiz foi Análise Estatística de Conteúdo . O projeto final da turma, de fato, todo o seu objetivo, era realizar uma análise detalhada dos relatórios de guerra do New York Times, para testar se muitas das suposições americanas sobre cobertura de notícias durante as guerras eram precisas (spoiler: as evidências sugerem que são não). O projeto foi enorme e bastante divertido, mas, de longe, sua seção mais dolorosa foi a 'fase de treinamento e teste de confiabilidade', que ocorreu antes que pudéssemos realizar uma análise completa. Ele tinha dois objetivos (consulte a página 9 do artigo vinculado para obter uma descrição detalhada, bem como referências aos padrões de confiabilidade do intercoder na literatura estatística da análise de conteúdo):

Confirme que todos os codificadores, ou seja, leitores do conteúdo, foram treinados com as mesmas definições qualitativas. Na análise de Joel, isso significava que todos saberiam exatamente como o projeto definia "amigável" e "hostil".
Confirme se todos os codificadores interpretaram essas regras de forma confiável, ou seja, amostramos nossa amostra, analisamos o subconjunto e depois demonstramos estatisticamente que nossas correlações aos pares nas avaliações qualitativas eram bastante semelhantes.

O teste de confiabilidade doeu porque tivemos que fazer isso três ou quatro vezes. Até -1- ser bloqueado e -2- mostrar correlações pares o suficiente, nossos resultados para a análise completa eram suspeitos. Eles não puderam ser demonstrados válidos ou inválidos. Mais importante, tivemos que fazer testes piloto de confiabilidade antes do conjunto final de amostras.

Minha pergunta é a seguinte: a análise estatística de Joel carecia de um teste piloto de confiabilidade e não estabeleceu nenhuma definição operacional de "amizade". Os dados finais foram confiáveis o suficiente para dizer algo sobre a validade estatística de seus resultados?

Para uma perspectiva, considere este manual sobre o valor da confiabilidade do intercodificador e definições operacionais consistentes. Mais adiante, na mesma fonte, você pode ler sobre os testes de confiabilidade do piloto (item 5 da lista).

De acordo com a sugestão de Andy W. em sua resposta, estou tentando calcular uma variedade de estatísticas de confiabilidade no conjunto de dados, disponível aqui, usando esta série de comandos em R (atualizada à medida que calculo novas estatísticas).

As estatísticas descritivas estão aqui

Acordo de porcentagem (com tolerância = 0): 0,0143

Acordo de porcentagem (com tolerância = 1): 11,8

Alfa de Krippendorff: 0,1529467

Também tentei um modelo de resposta ao item para esses dados em outra pergunta.

reliability agreement-statistics methodology Christopher
fonte

Eles divulgaram publicamente os dados de codificação para que se pudesse avaliar a confiabilidade dos próprios codificadores, se quisesse.

Andy W

Re: # 1 - Note-se que este não foi um exercício tão grande se os comentários eram amigáveis ou não, mas mais um exercício sobre se os comentários foram percebidos como amigáveis ou não para um usuário externo.

Rachel

@ Rachel Eu não acho isso certo. Se eles estivessem medindo como as pessoas de fora percebem comentários sobre o SO, precisariam de um conjunto de amostras bem maior que 20 pessoas.

Christopher Christopher

É a diferença entre concluir algo sobre como os estrangeiros percebem os comentários e concluir algo sobre os próprios comentários. No primeiro caso, você precisaria de uma amostra muito maior de pessoas, e a conclusão seria "Pessoas de fora consideram que 2,3% dos comentários de SO são hostis". No segundo, são "2,3% dos comentários do SO não são amigáveis". São conclusões diferentes, e acho que a segunda pode não ser possível, porque não podemos demonstrar que os codificadores avaliam os comentários da mesma forma sem um teste de confiabilidade.

Christopher

@ Christopher Friendliness é muito subjetivo embora. Dependendo de quem você perguntar, o mesmo comentário pode ser visto como amigável e hostil. É por isso que acho mais importante entender o ponto de vista de um grande número de usuários aleatórios, em vez de alguém que tem exatamente o mesmo ponto de vista que você.

Rachel

Respostas:

Acordo de porcentagem (com tolerância = 0): 0,0143

Acordo de porcentagem (com tolerância = 1): 11,8

Alfa de Krippendorff: 0,1529467

Essas medidas de acordo afirmam que praticamente não há acordo de categoria - cada codificador tem seu próprio ponto de corte interno para julgar os comentários como "amigáveis" ou "não amigáveis".

Se assumirmos que as três categorias estão ordenadas, ou seja: Não amigável <Neutro <Amigável, também podemos calcular a correlação intraclasse como outra medida de concordância. Em uma amostra aleatória de 1.000 comentários, existe um ICC (2,1) de 0,28 e um ICC (2, k) de 0,88. Isso significa que, se você escolher apenas um dos 20 avaliadores, os resultados não serão muito confiáveis (0,28); se considerar a média de 20 avaliadores, os resultados serão confiáveis (0,88). Tomando combinações diferentes de três avaliadores aleatórios, a confiabilidade média fica entre 0,50 e 0,60, o que ainda seria considerado muito baixo.

A correlação bivariada média entre dois codificadores é 0,34, o que também é bastante baixo.

Se essas medidas de concordância são vistas como uma medida de qualidade dos codificadores (que realmente devem mostrar boa concordância), a resposta é: eles não são bons codificadores e devem ser melhor treinados. Se isso é visto como uma medida de "quão boa é a concordância espontânea entre pessoas aleatórias", a resposta também é: não muito alta. Como referência, a correlação média para as classificações de atratividade física é de 0,47 a 0,71 [1].

[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M. e Smoot, M. (2000). Máximas ou mitos da beleza? Uma revisão meta-analítica e teórica. Boletim Psicológico, 126, 390-423. doi: 10.1037 / 0033-2909.126.3.390

Felix S
fonte

A confiabilidade das pontuações é frequentemente interpretada em termos da Teoria Clássica dos Testes . Aqui se tem uma pontuação verdadeira X, mas o que você observa em um resultado específico não é apenas a pontuação verdadeira, mas a pontuação verdadeira com algum erro (ie Observed = X + error). Em teoria, tomando várias medidas observadas do mesmo teste subjacente (fazendo algumas suposições sobre a distribuição dos erros desses testes), é possível medir o escore verdadeiro não observado.

Observe aqui nesta estrutura que você deve assumir que suas múltiplas medidas observadas estão medindo o mesmo teste subjacente. A baixa confiabilidade dos itens de teste é frequentemente tomada como evidência de que as medidas observadas não estão medindo o mesmo teste subjacente. Esta é apenas uma convenção de campo, porém, a baixa confiabilidade, por si só, não prova (em nenhum sentido estatístico) que os itens não estão medindo o mesmo construto. Portanto, pode-se argumentar que, ao tomar muitas medidas observadas, mesmo com testes muito pouco confiáveis, é possível obter uma medida confiável da pontuação verdadeira.

Também deve ser mencionado que a teoria clássica dos testes não é necessariamente a única maneira de interpretar tais testes, e muitos estudiosos argumentariam que o conceito de variáveis latentes e teoria dos itens-resposta é sempre mais apropriado do que a teoria clássica dos testes.

Também uma suposição implícita semelhante na teoria clássica de teste é quando as pessoas dizem que as confiabilidade são muito altas. Não diz nada sobre a validade de itens específicos mensurarem algum teste subjacente, mas que, quando a confiabilidade é muito alta, os pesquisadores tomam como evidência que os erros entre os testes não são independentes.

Não sei ao certo por que você é tão veemente em não entrar e calcular as próprias confiabilidade. Por que não se pode fazer isso e subsequentemente interpretar a análise à luz dessa informação extra?

Andy W
fonte

Então, primeiro, deixe-me salientar que não sou mais um estudante de pós-graduação que faz estatísticas por um bom motivo: não era exatamente o meu forte. Eu posso estar se lembrando errado da metodologia. Mesmo assim, acho que você e eu podemos estar falando sobre diferentes medidas de confiabilidade, ou pelo menos há pesquisas para sugerir a medição da confiabilidade do intercoder antes que a análise final seja conduzida para garantir a validade. Editei a pergunta para incluir uma fonte que encontrei na web, que cita consideravelmente mais pesquisas sobre o assunto.

Christopher

É um contexto diferente (confiabilidade de itens de teste dicotômicos em vez de algum resultado contínuo), mas a lógica é funcionalmente a mesma. Por isso, não mencionei nenhuma medida específica de confiabilidade (existem muitas). Sua cotação não insinua nada before the final analysis, então não tenho muita certeza de onde vem essa noção.

Andy W

Ah ha. Você está correto, não é um requisito. Lendo mais detalhadamente o link que publiquei, parece que esses testes-piloto são considerados uma melhor prática metodológica (procure por um teste-piloto).

Christopher

Alterei minha pergunta para acomodar as novas informações. Obrigado pela ajuda para corrigir meu erro.

Christopher Christopher

Outra questão está levantada.

Christopher