Coeficiente de correlação intraclasse vs. teste F (ANOVA unidirecional)?

10

Estou um pouco confuso em relação ao coeficiente de correlação intraclasse e ANOVA unidirecional. Pelo que entendi, ambos dizem como as observações são semelhantes em um grupo, em relação às observações em outros grupos.

Alguém poderia explicar isso um pouco melhor e talvez explicar a (s) situação (s) em que cada método é mais vantajoso?

bip
fonte
Por favor, reserve um tempo para verificar as tags de confiabilidade ou entre avaliadores . O ICC é baseado em uma tabela ANOVA, mas a idéia é apenas analisar componentes de variação em vez de produzir uma única estatística de teste com propriedades distributivas conhecidas, como o teste-F. Qual aplicativo você tem em mente?
chl
@chl Estou procurando analisar pontuações individuais para dados agrupados. Eu já vi alguns trabalhos examinando diferenças entre as pontuações de pais e filhos, usando o TPI para saber se havia uma diferença significativa nas respostas dos pais versus filhos. Eu acho que o TPI é o que eu quero aqui, mas como eu mencionei, eu realmente não entendo a diferença entre os dois. Hesito em perguntar mais, mas você conhece alguma referência (básica) boa? Meu histórico de estatísticas parou com a regressão linear e sinto que estou fazendo perguntas que não são bem formuladas. Obrigado.
BLEP
Parece que você emparelhou dados. Ao considerar grupos separados (pais versus filhos) e usar um ICC para relatar a confiabilidade das pontuações, você rejeitará parte das informações, ou seja, se as classificações dos pais e de seus parentes agem de maneira consistente. Seus dois ICCs apenas informarão se as duas séries de pontuação, consideradas independentes, são "confiáveis", no sentido de que uma parte significativa da variação pode ser explicada pelo efeito do avaliador. (...)
chl
(...) Em suma, se você quiser mostrar que as avaliações dos pais são mais confiáveis ​​do que as crianças, usar o ICC é bom; se, por outro lado, você quiser estudar como as classificações dos pais se relacionam às classificações dos filhos, poderá recorrer a outro tipo de análise (precisamente, a análise de dados diádicos).
30511 chl

Respostas:

17

Ambos os métodos se baseiam na mesma idéia: decompor a variação observada em diferentes partes ou componentes. No entanto, existem diferenças sutis se consideramos itens e / ou avaliadores como efeitos fixos ou aleatórios. Além de dizer qual parte da variabilidade total é explicada pelo fator entre (ou quanto a variação entre se afasta da variação residual), o teste F não diz muito. Pelo menos isso vale para uma ANOVA de mão única, na qual assumimos um efeito fixo (e que corresponde ao ICC (1,1) descrito abaixo). Por outro lado, o ICC fornece um índice limitado ao avaliar a confiabilidade da classificação para vários avaliadores "trocáveis" ou a homogeneidade entre as unidades analíticas.

Geralmente fazemos a seguinte distinção entre os diferentes tipos de ICCs. Isso se segue do trabalho seminal de Shrout e Fleiss (1979):

  • Modelo de efeitos aleatórios unidirecional , ICC (1,1): cada item é avaliado por diferentes avaliadores que são considerados como amostra de um conjunto maior de avaliadores em potencial; portanto, são tratados como efeitos aleatórios; o ICC é então interpretado como a% da variação total contabilizada pela variação de assuntos / itens. Isso é chamado de consistência ICC.
  • Modelo de efeitos aleatórios bidirecionais , ICC (2,1): ambos os fatores - avaliadores e itens / sujeitos - são vistos como efeitos aleatórios, e temos dois componentes de variância (ou quadrados médios) além da variação residual; assumimos ainda que os avaliadores avaliam todos os itens / assuntos; o TPI fornece, nesse caso, a% de variação atribuível aos avaliadores + itens / sujeitos.
  • Modelo misto bidirecional , ICC (3,1): contrariamente à abordagem unidirecional, aqui os avaliadores são considerados efeitos fixos (sem generalização além da amostra em questão), mas itens / sujeitos são tratados como efeitos aleatórios; a unidade de análise pode ser a classificação individual ou a média.

Isso corresponde aos casos 1 a 3 na Tabela 1. Uma distinção adicional pode ser feita, dependendo de considerarmos que as classificações observadas são a média de várias classificações (elas são chamadas de ICC (1, k), ICC (2, k), e ICC (3, k)) ou não.

Em suma, você precisa escolher o modelo certo (unidirecional x bidirecional), e isso é amplamente discutido no artigo de Shrout e Fleiss. Um modelo unidirecional tende a gerar valores menores que o modelo bidirecional; da mesma forma, um modelo de efeitos aleatórios geralmente gera valores mais baixos do que um modelo de efeitos fixos. Um ICC derivado de um modelo de efeitos fixos é considerado como uma maneira de avaliar a consistência dos avaliadores (porque ignoramos a variação dos avaliadores), enquanto que para um modelo de efeitos aleatórios falamos de uma estimativa da concordância dos avaliadores (sejam os avaliadores intercambiáveis ​​ou não). Somente os modelos bidirecionais incorporam a interação avaliador x sujeito, o que pode ser interessante ao tentar desvendar padrões de classificação atípicos.

A figura seguinte é prontamente uma cópia / colar do exemplo de ICC()no Psych pacote (dados provenientes de Shrout e Fleiss, 1979). Os dados consistem em 4 juízes (J), avaliando 6 sujeitos ou alvos (S) e são resumidos abaixo (assumirei que eles são armazenados como uma matriz R denominada sf)

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

Este exemplo é interessante porque mostra como a escolha do modelo pode influenciar os resultados, portanto, a interpretação do estudo de confiabilidade. Todos os 6 modelos da ICC são os seguintes (esta é a Tabela 4 no artigo de Shrout e Fleiss)

Intraclass correlation coefficients 
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

Como pode ser visto, considerar os avaliadores como efeitos fixos (portanto, não tentar generalizar para um conjunto maior de avaliadores) renderia um valor muito mais alto para a homogeneidade da medição. (Resultados semelhantes podem ser obtidos com o pacote irr ( icc()), embora seja necessário brincar com a opção diferente para o tipo de modelo e a unidade de análise.)

O que a abordagem ANOVA nos diz? Precisamos ajustar dois modelos para obter os quadrados médios relevantes:

  • um modelo unidirecional que considera apenas o assunto; isso permite separar as metas classificadas (entre grupos MS, BMS) e obter uma estimativa do termo dentro do erro (WMS)
  • um modelo bidirecional que considera sujeito + avaliador + sua interação (quando não há repetições, este último termo será confundido com os resíduos); isso permite estimar o efeito principal do avaliador (JMS), que pode ser contabilizado se desejarmos usar um modelo de efeitos aleatórios (ou seja, adicionaremos à variabilidade total)

Não é necessário olhar para o teste F, apenas os EMs são interessantes aqui.

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

Agora, podemos montar as diferentes peças em uma tabela ANOVA estendida que se parece com a mostrada abaixo (esta é a tabela 3 no artigo de Shrout e Fleiss):


(fonte: mathurl.com )

onde as duas primeiras linhas são do modelo unidirecional, enquanto as duas seguintes são da ANOVA bidirecional.

É fácil verificar todas as fórmulas no artigo de Shrout e Fleiss, e temos tudo o que precisamos para estimar a confiabilidade de uma única avaliação . E a confiabilidade da média de várias avaliações (que geralmente é a quantidade de interesse em estudos entre avaliadores)? Seguindo Hays e Revicki (2005), pode-se obter a partir da decomposição acima alterando apenas o total de EM considerado no denominador, exceto o modelo de efeitos aleatórios de duas vias para o qual precisamos reescrever a proporção de EM.

  • No caso de ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS), a confiabilidade geral é calculada como (BMS-WMS) /BMS=0,443.
  • Para o ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N), a confiabilidade geral é (N • (BMS-EMS)) / (N • BMS + JMS-EMS) = 0,620.
  • Finalmente, para o ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS), temos uma confiabilidade de (BMS-EMS) / BMS = 0,909.

Novamente, descobrimos que a confiabilidade geral é maior quando consideramos os avaliadores como efeitos fixos.

Referências

  1. Shrout, PE e Fleiss, JL (1979). Correlações intraclasse: Utilizadas na avaliação da confiabilidade do avaliador . Boletim Psicológico , 86, 420-3428.
  2. Hays, RD e Revicki, D. (2005). Confiabilidade e validade (incluindo capacidade de resposta). Em Fayers, P. e Hays, RD (eds.), Avaliando a qualidade de vida em ensaios clínicos , 2ª ed., Pp. 25-39. Imprensa da Universidade de Oxford.
chl
fonte