Os participantes foram classificados duas vezes, com as duas classificações separadas por três anos. Para a maioria dos participantes, as classificações foram feitas por avaliadores diferentes, mas para alguns (<10%) o mesmo avaliador realizou as duas classificações. No total, foram oito avaliadores, com dois fazendo avaliações nos dois momentos.
Agora, como as classificações tinham um aspecto de habilidade com um valor hipotético "correto", o acordo absoluto entre os avaliadores é mais interessante do que consistente. No entanto, como as classificações foram divididas em três anos, pode ter havido (e provavelmente houve) alguma mudança real na capacidade.
- Qual seria o melhor teste de confiabilidade neste caso?
- Estou inclinado a uma correlação intra-classe, mas o ICC1 é o melhor que posso fazer com esses dados?