Estou um pouco confuso em relação ao coeficiente de correlação intraclasse e ANOVA unidirecional. Pelo que entendi, ambos dizem como as observações são semelhantes em um grupo, em relação às observações em outros grupos.
Alguém poderia explicar isso um pouco melhor e talvez explicar a (s) situação (s) em que cada método é mais vantajoso?
Respostas:
Ambos os métodos se baseiam na mesma idéia: decompor a variação observada em diferentes partes ou componentes. No entanto, existem diferenças sutis se consideramos itens e / ou avaliadores como efeitos fixos ou aleatórios. Além de dizer qual parte da variabilidade total é explicada pelo fator entre (ou quanto a variação entre se afasta da variação residual), o teste F não diz muito. Pelo menos isso vale para uma ANOVA de mão única, na qual assumimos um efeito fixo (e que corresponde ao ICC (1,1) descrito abaixo). Por outro lado, o ICC fornece um índice limitado ao avaliar a confiabilidade da classificação para vários avaliadores "trocáveis" ou a homogeneidade entre as unidades analíticas.
Geralmente fazemos a seguinte distinção entre os diferentes tipos de ICCs. Isso se segue do trabalho seminal de Shrout e Fleiss (1979):
Isso corresponde aos casos 1 a 3 na Tabela 1. Uma distinção adicional pode ser feita, dependendo de considerarmos que as classificações observadas são a média de várias classificações (elas são chamadas de ICC (1, k), ICC (2, k), e ICC (3, k)) ou não.
Em suma, você precisa escolher o modelo certo (unidirecional x bidirecional), e isso é amplamente discutido no artigo de Shrout e Fleiss. Um modelo unidirecional tende a gerar valores menores que o modelo bidirecional; da mesma forma, um modelo de efeitos aleatórios geralmente gera valores mais baixos do que um modelo de efeitos fixos. Um ICC derivado de um modelo de efeitos fixos é considerado como uma maneira de avaliar a consistência dos avaliadores (porque ignoramos a variação dos avaliadores), enquanto que para um modelo de efeitos aleatórios falamos de uma estimativa da concordância dos avaliadores (sejam os avaliadores intercambiáveis ou não). Somente os modelos bidirecionais incorporam a interação avaliador x sujeito, o que pode ser interessante ao tentar desvendar padrões de classificação atípicos.
A figura seguinte é prontamente uma cópia / colar do exemplo de
ICC()
no Psych pacote (dados provenientes de Shrout e Fleiss, 1979). Os dados consistem em 4 juízes (J), avaliando 6 sujeitos ou alvos (S) e são resumidos abaixo (assumirei que eles são armazenados como uma matriz R denominadasf
)Este exemplo é interessante porque mostra como a escolha do modelo pode influenciar os resultados, portanto, a interpretação do estudo de confiabilidade. Todos os 6 modelos da ICC são os seguintes (esta é a Tabela 4 no artigo de Shrout e Fleiss)
Como pode ser visto, considerar os avaliadores como efeitos fixos (portanto, não tentar generalizar para um conjunto maior de avaliadores) renderia um valor muito mais alto para a homogeneidade da medição. (Resultados semelhantes podem ser obtidos com o pacote irr (
icc()
), embora seja necessário brincar com a opção diferente para o tipo de modelo e a unidade de análise.)O que a abordagem ANOVA nos diz? Precisamos ajustar dois modelos para obter os quadrados médios relevantes:
Não é necessário olhar para o teste F, apenas os EMs são interessantes aqui.
Agora, podemos montar as diferentes peças em uma tabela ANOVA estendida que se parece com a mostrada abaixo (esta é a tabela 3 no artigo de Shrout e Fleiss):
(fonte: mathurl.com )
onde as duas primeiras linhas são do modelo unidirecional, enquanto as duas seguintes são da ANOVA bidirecional.
É fácil verificar todas as fórmulas no artigo de Shrout e Fleiss, e temos tudo o que precisamos para estimar a confiabilidade de uma única avaliação . E a confiabilidade da média de várias avaliações (que geralmente é a quantidade de interesse em estudos entre avaliadores)? Seguindo Hays e Revicki (2005), pode-se obter a partir da decomposição acima alterando apenas o total de EM considerado no denominador, exceto o modelo de efeitos aleatórios de duas vias para o qual precisamos reescrever a proporção de EM.
Novamente, descobrimos que a confiabilidade geral é maior quando consideramos os avaliadores como efeitos fixos.
Referências
fonte