Estou usando o Kappa de Cohen para calcular a concordância entre dois juízes.
É calculado como:
onde é a proporção de concordância e a probabilidade de concordância por acaso.
Agora, para o seguinte conjunto de dados, obtenho os resultados esperados:
User A judgements:
- 1, true
- 2, false
User B judgements:
- 1, false
- 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333
Podemos ver que ambos os juízes não concordaram muito bem. No entanto, no caso a seguir, onde ambos os juízes avaliam um critério, o kappa avalia como zero:
User A judgements:
- 1, false
User B judgements:
- 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0
Agora posso ver que o acordo por acaso é obviamente 1, o que leva a kappa a zero, mas isso conta como um resultado confiável? O problema é que normalmente não tenho mais de dois julgamentos por critério, portanto, todos eles nunca serão avaliados para um kappa maior que 0, o que acho que não é muito representativo.
Estou certo com meus cálculos? Posso usar um método diferente para calcular a concordância?
Aqui podemos ver que o kappa funciona bem para vários julgamentos:
User A judgements:
- 1, false
- 2, true
- 3, false
- 4, false
- 5, true
User A judgements:
- 1, true
- 2, true
- 3, false
- 4, true
- 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996
information-retrieval
tag aqui.Respostas:
A "correção de chance" em Cohen estima probabilidades com as quais cada avaliador escolhe as categorias existentes. A estimativa vem das frequências marginais das categorias. Quando você tem apenas 1 julgamento para cada avaliador, isso significa que assume que a categoria escolhida para esse julgamento único em geral tem uma probabilidade de 1. Isso obviamente não faz sentido, pois o número de julgamentos (1) é muito pequeno para estimar com segurança as taxas básicas de todas as categorias.κ κ
Uma alternativa pode ser um modelo binomial simples: sem informações adicionais, podemos supor que a probabilidade de concordância entre dois avaliadores para um julgamento seja 0,5, pois os julgamentos são binários. Isso significa que assumimos implicitamente que ambos os avaliadores escolhem cada categoria com probabilidade 0,5 para todos os critérios. O número de acordos esperados por acaso em todos os critérios segue uma distribuição binomial com .p=0.5
fonte
Acho a resposta de caracal convincente, mas também acredito que o Kappa de Cohen pode explicar apenas parte do que constitui confiabilidade entre avaliadores. A simples porcentagem de ratings em contrato representa outra parte e a correlação entre os ratings, um terço. São necessários os três métodos para obter uma imagem completa. Para detalhes, consulte http://pareonline.net/getvn.asp?v=9&n=4 :
fonte