Como executar a confiabilidade entre avaliadores com vários avaliadores, diferentes avaliadores por participante e possíveis alterações ao longo do tempo?

Os participantes foram classificados duas vezes, com as duas classificações separadas por três anos. Para a maioria dos participantes, as classificações foram feitas por avaliadores diferentes, mas para alguns (<10%) o mesmo avaliador realizou as duas classificações. No total, foram oito avaliadores, com dois fazendo avaliações nos dois momentos.

Agora, como as classificações tinham um aspecto de habilidade com um valor hipotético "correto", o acordo absoluto entre os avaliadores é mais interessante do que consistente. No entanto, como as classificações foram divididas em três anos, pode ter havido (e provavelmente houve) alguma mudança real na capacidade.

Qual seria o melhor teste de confiabilidade neste caso?
Estou inclinado a uma correlação intra-classe, mas o ICC1 é o melhor que posso fazer com esses dados?

reliability psychometrics agreement-statistics intraclass-correlation Joyce
fonte

Como você planeja explicar o fato de que algumas classificações foram feitas pelo mesmo avaliador? De cabeça para baixo, não consigo pensar em nenhuma medida que leve isso em consideração quando não for consistentemente feita. Afinal, se você comparar o mesmo avaliador duas vezes, estará procurando consistência; se você comparar dois avaliadores, está procurando um acordo. Então, quando você diz que deseja avaliar a "confiabilidade", não está totalmente claro o que você está procurando avaliar.

Se você acredita que o nível de habilidade dos sujeitos provavelmente mudou, também é importante considerar como você pode explicar esse fato. Você tem alguma medida padrão-ouro para comparar os avaliadores?

Portanto, em resumo, antes de avaliar a confiabilidade dos avaliadores, é necessário responder a duas perguntas principais:

Como você pode quantificar e corrigir as mudanças entre os pontos do tempo atribuídos a mudanças legítimas na capacidade, em vez da baixa consistência na classificação?
Você está interessado principalmente na frequência com que os avaliadores concordam uns com os outros ou com que consistência eles aplicam as classificações?

TARehman
fonte

Obrigado pela sua resposta, TARehman. Como você diz, é uma mistura. Acho que vou precisar dividir a amostra entre aqueles que foram classificados pelo mesmo avaliador e aqueles que não foram. Depois, executarei análises separadas em ambos (intra e inter-confiabilidade, respectivamente). Quanto ao problema da mudança real, eu não acho que há uma maneira

Joyce

Parece-me que, se você os dividir, poderá agregar a pontuação final em uma meta-confiabilidade, mas esse plano está repleto de desafios metodológicos. Eu acho que o ICC será sua melhor opção. Como são seus números (quantas classificações, indivíduos, etc. - sabemos que você tem 8 avaliadores)?

TAREHMAN

Portanto, para cada indivíduo n = 800, existem 2 classificações. Havia 5 avaliadores em t1 e 5 em t2 (8 no total, com 2 classificações em t1 e t2). 100 indivíduos foram classificados pelo mesmo avaliador em ambos os momentos e 700 tiveram avaliadores diferentes. Eu não posso descobrir qual ICC seria mais apropriado aqui ...

Joyce

Bem, parece que você pode abordar um dos dois pontos acima, ignorando os 100 indivíduos que foram classificados pelo mesmo avaliador nos dois momentos. Isso pelo menos aborda a questão em que você está interessado: com que frequência eles concordam entre si ou com que consistência aplicam as classificações. Porque você não tem qualquer forma de controle para a mudança esperada em valores ao longo do tempo, eu ainda não sei como você vai abordar o primeiro ponto ...

TARehman

Editado para adicionar: Você pode encontrar uma discussão na Wikipedia sobre esse aspecto da ICC para ser ilustrativa: en.wikipedia.org/wiki/… . Em particular, afirma que pode ser "usado para avaliar a consistência ou conformidade das medições feitas por vários observadores que medem a mesma quantidade". Como os avaliadores neste caso não estão medindo a mesma quantidade, o TPI pode não ser adequado à sua situação.

TAREHMAN

Como executar a confiabilidade entre avaliadores com vários avaliadores, diferentes avaliadores por participante e possíveis alterações ao longo do tempo?

Respostas: