Se você está lendo os boletins da comunidade recentemente, provavelmente viu The Hunting of the Snark, uma publicação no blog oficial do StackExchange de Joel Spolsky, CEO da rede StackExchange. Ele discute uma análise estatística realizada em uma amostra de comentários do SE para avaliar sua "simpatia" da perspectiva de um usuário externo. Os comentários foram amostrados aleatoriamente no StackOverflow e os analistas de conteúdo eram membros da comunidade Mechanical Turk da Amazon, um mercado de trabalho que conecta empresas a trabalhadores que realizam tarefas pequenas e curtas por taxas acessíveis.
Há pouco tempo, eu era um estudante de graduação em ciências políticas e uma das aulas que fiz foi Análise Estatística de Conteúdo . O projeto final da turma, de fato, todo o seu objetivo, era realizar uma análise detalhada dos relatórios de guerra do New York Times, para testar se muitas das suposições americanas sobre cobertura de notícias durante as guerras eram precisas (spoiler: as evidências sugerem que são não). O projeto foi enorme e bastante divertido, mas, de longe, sua seção mais dolorosa foi a 'fase de treinamento e teste de confiabilidade', que ocorreu antes que pudéssemos realizar uma análise completa. Ele tinha dois objetivos (consulte a página 9 do artigo vinculado para obter uma descrição detalhada, bem como referências aos padrões de confiabilidade do intercoder na literatura estatística da análise de conteúdo):
Confirme que todos os codificadores, ou seja, leitores do conteúdo, foram treinados com as mesmas definições qualitativas. Na análise de Joel, isso significava que todos saberiam exatamente como o projeto definia "amigável" e "hostil".
Confirme se todos os codificadores interpretaram essas regras de forma confiável, ou seja, amostramos nossa amostra, analisamos o subconjunto e depois demonstramos estatisticamente que nossas correlações aos pares nas avaliações qualitativas eram bastante semelhantes.
O teste de confiabilidade doeu porque tivemos que fazer isso três ou quatro vezes. Até -1- ser bloqueado e -2- mostrar correlações pares o suficiente, nossos resultados para a análise completa eram suspeitos. Eles não puderam ser demonstrados válidos ou inválidos. Mais importante, tivemos que fazer testes piloto de confiabilidade antes do conjunto final de amostras.
Minha pergunta é a seguinte: a análise estatística de Joel carecia de um teste piloto de confiabilidade e não estabeleceu nenhuma definição operacional de "amizade". Os dados finais foram confiáveis o suficiente para dizer algo sobre a validade estatística de seus resultados?
Para uma perspectiva, considere este manual sobre o valor da confiabilidade do intercodificador e definições operacionais consistentes. Mais adiante, na mesma fonte, você pode ler sobre os testes de confiabilidade do piloto (item 5 da lista).
De acordo com a sugestão de Andy W. em sua resposta, estou tentando calcular uma variedade de estatísticas de confiabilidade no conjunto de dados, disponível aqui, usando esta série de comandos em R (atualizada à medida que calculo novas estatísticas).
As estatísticas descritivas estão aqui
Acordo de porcentagem (com tolerância = 0): 0,0143
Acordo de porcentagem (com tolerância = 1): 11,8
Alfa de Krippendorff: 0,1529467
Também tentei um modelo de resposta ao item para esses dados em outra pergunta.
fonte
Respostas:
Essas medidas de acordo afirmam que praticamente não há acordo de categoria - cada codificador tem seu próprio ponto de corte interno para julgar os comentários como "amigáveis" ou "não amigáveis".
Se assumirmos que as três categorias estão ordenadas, ou seja: Não amigável <Neutro <Amigável, também podemos calcular a correlação intraclasse como outra medida de concordância. Em uma amostra aleatória de 1.000 comentários, existe um ICC (2,1) de 0,28 e um ICC (2, k) de 0,88. Isso significa que, se você escolher apenas um dos 20 avaliadores, os resultados não serão muito confiáveis (0,28); se considerar a média de 20 avaliadores, os resultados serão confiáveis (0,88). Tomando combinações diferentes de três avaliadores aleatórios, a confiabilidade média fica entre 0,50 e 0,60, o que ainda seria considerado muito baixo.
A correlação bivariada média entre dois codificadores é 0,34, o que também é bastante baixo.
Se essas medidas de concordância são vistas como uma medida de qualidade dos codificadores (que realmente devem mostrar boa concordância), a resposta é: eles não são bons codificadores e devem ser melhor treinados. Se isso é visto como uma medida de "quão boa é a concordância espontânea entre pessoas aleatórias", a resposta também é: não muito alta. Como referência, a correlação média para as classificações de atratividade física é de 0,47 a 0,71 [1].
[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M. e Smoot, M. (2000). Máximas ou mitos da beleza? Uma revisão meta-analítica e teórica. Boletim Psicológico, 126, 390-423. doi: 10.1037 / 0033-2909.126.3.390
fonte
A confiabilidade das pontuações é frequentemente interpretada em termos da Teoria Clássica dos Testes . Aqui se tem uma pontuação verdadeira
X
, mas o que você observa em um resultado específico não é apenas a pontuação verdadeira, mas a pontuação verdadeira com algum erro (ieObserved = X + error
). Em teoria, tomando várias medidas observadas do mesmo teste subjacente (fazendo algumas suposições sobre a distribuição dos erros desses testes), é possível medir o escore verdadeiro não observado.Observe aqui nesta estrutura que você deve assumir que suas múltiplas medidas observadas estão medindo o mesmo teste subjacente. A baixa confiabilidade dos itens de teste é frequentemente tomada como evidência de que as medidas observadas não estão medindo o mesmo teste subjacente. Esta é apenas uma convenção de campo, porém, a baixa confiabilidade, por si só, não prova (em nenhum sentido estatístico) que os itens não estão medindo o mesmo construto. Portanto, pode-se argumentar que, ao tomar muitas medidas observadas, mesmo com testes muito pouco confiáveis, é possível obter uma medida confiável da pontuação verdadeira.
Também deve ser mencionado que a teoria clássica dos testes não é necessariamente a única maneira de interpretar tais testes, e muitos estudiosos argumentariam que o conceito de variáveis latentes e teoria dos itens-resposta é sempre mais apropriado do que a teoria clássica dos testes.
Também uma suposição implícita semelhante na teoria clássica de teste é quando as pessoas dizem que as confiabilidade são muito altas. Não diz nada sobre a validade de itens específicos mensurarem algum teste subjacente, mas que, quando a confiabilidade é muito alta, os pesquisadores tomam como evidência que os erros entre os testes não são independentes.
Não sei ao certo por que você é tão veemente em não entrar e calcular as próprias confiabilidade. Por que não se pode fazer isso e subsequentemente interpretar a análise à luz dessa informação extra?
fonte
before the final analysis
, então não tenho muita certeza de onde vem essa noção.