Como calcular a correlação entre / dentro de grupos de variáveis?

13

Eu tenho uma matriz de 1000 observações e 50 variáveis, cada uma medida em uma escala de 5 pontos. Essas variáveis ​​são organizadas em grupos, mas não há um número igual de variáveis ​​em cada grupo.

Eu gostaria de calcular dois tipos de correlações:

  1. Correlação dentro de grupos de variáveis ​​(entre características): mede se as variáveis ​​dentro do grupo de variáveis ​​estão medindo a mesma coisa.
  2. Correlação entre grupos de variáveis: alguma medida, assumindo que cada grupo reflete uma característica geral, de como cada característica (grupo) está relacionada a todas as outras características.

Essas características foram previamente classificadas em grupos. Estou interessado em encontrar a correlação entre os grupos - ou seja, assumindo que as características dentro do grupo estão medindo a mesma característica subjacente (tendo completado o número 1 acima - o alfa de Cronbach), as características são elas mesmas relacionadas?

Alguém tem sugestões para começar?

bip
fonte
1
Se você conhece R, existe um pacote vegancom funções anosimou, de preferência, adonis(MANOVA permutacional).
Roman Luštrik
Eu atualizei a sua pergunta para tentar usar terminologia padrão (ou seja, variáveis não características; grupos de variáveis, em vez de "grupos")
Jeromy Anglim

Respostas:

16

O que o @rolando sugeriu parece um bom começo, se não toda a resposta (IMO). Deixe-me continuar com a abordagem correlacional, seguindo a estrutura da Teoria Clássica dos Testes (CTT). Aqui, como observado por @ Jeremy, uma medida resumida para o seu grupo de características pode ser considerada como a pontuação total (ou soma) de todos os itens (uma característica, em suas palavras) pertencentes ao que agora chamarei de escala. Nos CTT, isso permite formalizar a propensão ou a responsabilidade individual de "traço" como a localização de alguém em uma escala contínua, refletindo um construto subjacente (um traço latente), embora aqui seja apenas uma escala ordinal (mas esse outro debate na literatura psicométrica) .

O que você descreveu tem a ver com o que é conhecido como validade convergente (até que ponto os itens pertencentes à mesma escala se correlacionam) e discriminante (itens pertencentes a diferentes escalas não devem se correlacionar em grande medida) com a psicometria. As técnicas clássicas incluem a análise multi-traço multi-método (MTMM) (Campbell & Fiske, 1959). Uma ilustração de como funciona é mostrada abaixo (três métodos ou instrumentos, três construções ou características):

insira a descrição da imagem aqui

Nesta matriz do MTMM, os elementos diagonais podem ser a correlação alfa de Cronbach ou intraclasse teste-reteste; estes são indicadores da confiabilidade de cada escala de medição. A validade dos construtos hipotéticos (compartilhados) é avaliada pela correlação dos escores das escalas quando diferentes instrumentos são usados ​​para avaliar a mesma característica; se esses instrumentos fossem desenvolvidos de forma independente, uma alta correlação ( ) apoiaria a ideia de que os traços são definidos de maneira consistente e objetiva. As células restantes nesta matriz MTMM resumem as relações entre características dentro do método e entre características entre métodos>0,7, e são indicativos de como as construções únicas são medidas com escalas diferentes e quais são as relações entre cada característica em uma determinada escala. Assumindo características independentes, geralmente não esperamos que elas sejam altas (um limite recomendado é ), mas um teste mais formal de hipótese (em estimativas de pontos de correlação) pode ser realizado. Uma sutileza é que usamos a chamada "correlação de repouso", ou seja, calculamos a correlação entre um item (ou característica) e sua escala (ou método) após remover a contribuição desse item para a pontuação da soma dessa escala (correção para sobreposição).<.3

Mesmo que esse método tenha sido desenvolvido inicialmente para avaliar a validade convergente e discriminante de um certo número de características estudadas por diferentes instrumentos de medição, ele pode ser aplicado a um único instrumento de múltiplas escalas. Os traços se tornam os itens e os métodos são apenas as diferentes escalas. Uma generalização desse método para um único instrumento também é conhecida como escala multitrait . Itens correlacionados conforme o esperado (ou seja, com sua própria escala e não com uma escala diferente) são contados como sucesso na escala. Geralmente assumimos, no entanto, que as diferentes escalas não estão correlacionadas, ou seja, estão visando diferentes construções hipotéticas. Porém, a média das correlações dentro e entre escalas fornece uma maneira rápida de resumir a estrutura interna do seu instrumento. Outra maneira conveniente de fazer isso é aplicar uma análise de cluster na matriz de correlações aos pares e ver como suas variáveis ​​estão juntas.

É importante ressaltar que, em ambos os casos, aplicam-se as advertências usuais do trabalho com medidas de correlação, ou seja, você não pode contabilizar erros de medição, você precisa de uma amostra grande, supõe-se que instrumentos ou testes sejam "paralelos" (equivalência tau, erros não relacionados, variações de erro iguais).

A segunda parte abordada por @rolando também é interessante: se não houver indicação teórica ou substantiva de que o agrupamento já estabelecido de itens faça sentido, será necessário encontrar uma maneira de destacar a estrutura de seus dados com, por exemplo, análise fatorial exploratória . Mas mesmo se você confiar nessas "características dentro de um grupo", poderá verificar se essa é uma suposição válida. Agora, você pode estar usando o modelo de análise fatorial confirmatória para verificar se o padrão de carregamento de itens (correlação de um item com sua própria escala) se comporta conforme o esperado.

Em vez dos métodos tradicionais de análise fatorial, você também pode dar uma olhada no agrupamento de itens (Revelle, 1979), que se baseia na regra dividida baseada em alfa de Cronbach para agrupar itens em escalas homogêneas.

Uma palavra final: se você estiver usando R, existem dois pacotes muito agradáveis ​​que facilitarão as etapas acima mencionadas:

  • psych , fornece-lhe com tudo que você precisa para começar a trabalhar com métodos psicométricos, incluindo análise de fatores ( fa, fa.parallel, principal), itens de agrupamento ( ICLUSTe métodos relacionados), alfa de Cronbach ( alpha); há uma visão agradável disponível no site da William Revelle, especialmente Uma introdução à teoria psicométrica com aplicações em R .
  • psy , também inclui visualização de scree plot (via conjuntos de dados simulados PCA +) ( scree.plot) e MTMM ( mtmm).

Referências

  1. Campbell, DT e Fiske, DW (1959). Validação convergente e discriminante pela matriz multitítulo-multimétodo. Boletim Psicológico , 56: 81-105.
  2. Hays, RD e Fayers, P. (2005). Avaliação de escalas de vários itens. Na avaliação da qualidade de vida em ensaios clínicos , (Fayers, P. e Hays, R., Eds.), Pp. 41-53. Oxford.
  3. Revelle, W. (1979). Análise de Cluster Hierárquica e Estrutura Interna de Testes. Pesquisa Comportamental Multivariada , 14: 57-74.
chl
fonte
Essa é, talvez, a resposta mais interessante que eu já li em qualquer uma das Bolsas e estudo econometria há 5 anos.
precisa saber é o seguinte
A matriz MTMM incluída aqui deveria ser um exemplo realista de uma matriz de correlação? Nesse caso, observarei que não é realmente uma matriz semidefinida positiva: por exemplo, o menor de 4 por 4 para as correlações dos traços 1,2 entre os métodos 1,2 tem o determinante -0,0419179. (Uma vez que este é um pequeno valor negativo, este talvez simplesmente vai para o seu ponto de re: 'erro de medição'.)
semiclássica
7

Da maneira como leio sua terminologia, o que você quer é primeiro avaliar a consistência interna dentro de cada grupo de variáveis ​​e depois avaliar as correlações entre as pontuações da escala que constituem a média de cada grupo de variáveis. O primeiro pode ser feito usando o alfa de Cronbach e o segundo usando a correlação de Pearson. Isso pressupõe que você tenha distribuições razoavelmente normais e relacionamentos razoavelmente lineares.

Um método mais envolvido, e não necessariamente exigido, seria realizar uma análise fatorial exploratória. Você tentaria estabelecer quais variáveis ​​deveriam ser agrupadas e, novamente, em que grau esses fatores seriam correlacionados. Se você tentar esse método, certifique-se de usar rotação oblíqua para permitir que essas correlações sejam exibidas. O uso da extração de componentes principais ou do eixo principal dependerá, respectivamente, se suas variáveis ​​são objetivas, medições sem erros ou subjetivas, como itens de pesquisa que contêm uma certa quantidade de erro.

rolando2
fonte
Obrigado pela sua resposta. Consegui calcular o alfa de Cronbach, mas como calcular os coeficientes de correlação de Pearson neste caso? Eu poderia calculá-los de maneira pareada para cada característica individual, mas gostaria de saber como calcular correlações entre grupos de características. As características dentro de um grupo terão pontuações semelhantes para cada observação. Vou editar minha pergunta para tornar isso um pouco mais claro.
BLEP
5
  • As ferramentas padrão, pelo menos em psicologia, na sua situação seriam uma análise fatorial exploratória e confirmatória para avaliar a convergência da matriz de correlação interitens com algum modelo proposto da relação entre fatores e itens. A maneira como você formulou sua pergunta sugere que você pode não estar familiarizado com esta literatura. Por exemplo, aqui estão minhas notas sobre a construção da escala e a análise fatorial, e aqui está um tutorial em R no formulário de análise fatorial Quick-R . Assim, embora valha a pena responder sua pergunta específica, acho que seus objetivos mais amplos serão melhor atendidos ao examinar abordagens analíticas fatoriais para avaliar escalas de múltiplos itens e de múltiplos fatores.

  • Outra estratégia padrão seria calcular a pontuação total para cada grupo de variáveis ​​(o que eu chamaria de "escala") e correlacionar as escalas.

  • Muitas ferramentas de análise de confiabilidade reportarão correlação média entre itens.

  • Se você criou a matriz 50 por 50 de correlações entre itens, poderá escrever uma função em R que calcula a média de subconjuntos com base em combinações de grupos de variáveis. Você pode não conseguir o que deseja se tiver uma mistura de itens positivos e negativos, pois as correlações negativas podem cancelar as correlações positivas.

Jeromy Anglim
fonte
2

Eu sugeriria usar como substituto a noção de correlação, que é definida apenas para pares, a noção de informação mútua e integração em modelos gaussianos.

G1

Eu1euog(|C1|)

C1G1G1euog(1-ρ2)ρ

Para calcular a interação entre dois grupos de variáveis, você pode usar informações mútuas, que são apenas entropia entre os grupos:

Mvocê12=Eu12-Eu1-Eu2

Encontrei uma referência a essas noções após um rápido google que pode ser útil.

Gael Varoquaux
fonte