Significado do coeficiente de correlação médio

11

Isenção de responsabilidade: se você acha que essa pergunta é muito semelhante a outra, fico feliz em ser mesclada. No entanto, não encontrei uma resposta satisfatória em nenhum outro lugar (e ainda não tenho a "reputação" de comentar ou votar), então achei que seria melhor fazer uma nova pergunta.

Minha pergunta é essa. Para cada um dos 12 indivíduos humanos, calculei um coeficiente de correlação (rho de Spearman) entre 6 níveis de uma variável independente X e as observações correspondentes de uma variável dependente Y. (Nota: os níveis de X não são iguais entre os sujeitos.) hipótese nula é que, na população em geral, essa correlação é igual a zero. Eu testei essa hipótese de duas maneiras:

  1. Usando um teste t de uma amostra sobre os coeficientes de correlação obtidos dos meus 12 indivíduos.

  2. Centralizando meus níveis de X e observações de Y de modo que, para cada participante, média (X) = 0 e média (Y) = 0 e calculando uma correlação sobre os dados agregados (72 níveis de X e 72 observações de Y) .

Agora, lendo sobre como trabalhar com coeficientes de correlação (aqui e em outros lugares), comecei a duvidar se a primeira abordagem é válida. Particularmente, vi a seguinte equação aparecer em vários lugares, apresentada (aparentemente) como um teste t para coeficientes de correlação médios:

t=rSEr=n21r2

onde seria o coeficiente de correlação médio (e vamos assumir que obtivemos isso usando a transformação de Fisher nos coeficientes por sujeito primeiro) e n o número de observações. Intuitivamente, isso me parece errado, pois não inclui nenhuma medida da variabilidade entre os sujeitos. Em outras palavras, se eu tivesse 3 coeficientes de correlação, obteria a mesma estatística t se fossem [0,1, 0,5, 0,9] ou [0,45 0,5 0,55] ou qualquer faixa de valores com a mesma média (e n = 3 )rnn=3

Suspeito, portanto, que a equação acima não se aplique de fato ao testar a significância de uma média de coeficientes de correlação, mas ao testar a significância de um único coeficiente de correlação com base em observações de 2 variáveis.n

Alguém aqui pode confirmar esta intuição ou explicar por que está errada? Além disso, se essa fórmula não se aplicar ao meu caso, alguém conhece a / a abordagem correta? Ou talvez meu próprio teste número 2 já seja válido? Qualquer ajuda é muito apreciada (incluindo indicadores de respostas anteriores que eu possa ter esquecido ou mal interpretado).

Ruben van Bergen
fonte
2
O de Pearson é insensível às transformações de centralização e dimensionamento, por isso acho que a centralização é irrelevante para a sua pergunta. Por exemplo, cor ( X , Y ) = cor ( X , Y - ˉ Y ) = cor ( X , Y + 1000 ) = cor ( X , Y × 1000 ). rX,YX,YY¯X,Y+1000X,Y×1000
Alexis26 /
Eu concordo com você. Por isso, interpretei centralizar como "centralizar cada variável separadamente antes de juntá-las".
Federico Tedeschi
11
@FedericoTedeschi Não é "centralizar cada variável separadamente antes de juntá-las" o que significa? YY¯
Alexis
@ Alexis Eu respondi a você na parte inferior da minha resposta (levaria muito tempo para escrevê-lo em um comentário, e eu também teria que corrigi-lo várias vezes devido ao problema WYSINWYG).
Federico Tedeschi

Respostas:

2

Uma abordagem melhor para analisar esses dados é usar um (também conhecido como modelo de efeitos mistos, modelo hierárquico) com subjectum efeito aleatório (interceptação aleatória ou interceptação aleatória + inclinação). Para resumir uma resposta diferente da minha:

Essa é essencialmente uma regressão que modela um único relacionamento geral, permitindo que esse relacionamento seja diferente entre os grupos (os seres humanos). Essa abordagem se beneficia do pool parcial e usa seus dados com mais eficiência.

mkt - Restabelecer Monica
fonte
-1

Eu suponho que as variáveis ​​( 6 X e 6 Y ) são iguais para todos os indivíduos (na verdade, não tenho certeza de entender o que você quer dizer com os níveis não iguais entre os sujeitos: espero que você seja referindo-se à independência entre os intervalos das variáveis, e não sobre quais variáveis ​​são medidas para cada indivíduo). Sim, a fórmula que você mostrou se aplica ao coeficiente de correlação entre duas variáveis.126 X6 Y

No seu ponto 2, você fala sobre normalização: Eu acho que isso faria sentido se você fez isso para cada um dos variáveis separadamente. No entanto, mesmo assim, o problema com essa abordagem é que ela não controla a dependência dentro do indivíduo.62

Acredito que sua abordagem 1 também não é válida, porque seria um teste entre variáveis ​​com distribuição t com apenas 10 graus de liberdade; portanto, não acho que você possa aplicar o Teorema do Limite Central neste caso.6t10

Talvez, com números maiores, é possível usar uma abordagem efeito aleatório, permitindo uma inclinação ao acaso e, simultaneamente, tanto para testar um coeficiente médio nulo (de em Y i ) e não existência de um coeficiente de forma aleatória. Acredito, no entanto, 6 variáveis ​​e 12 observações não são suficientes para fazê-lo.XiYi

Eu sugiro que você o veja como um teste em 6 valores (tornando-se 12 se você também considerar valores abaixo da diagonal) da matriz de correlação entre as variáveis ​​(tanto o X quanto o Y ), ou seja, aquelas na diagonal do 2º (e equivalente ao terceiro) quadrante. Assim, eu faria um teste de razão de verossimilhança entre o modelo restrito e o irrestrito.12XY

@Alexis Meu entendimento é que centralizando , Y 1 , , Y 6 , substituindo-os por XX1,,X6Y1,,Y6 faria sentido (acho que também faria sentido para dividi-los pelo seuSE's). Dessa forma, as variáveisXeY(criadas considerandoXi ,1i6como se fossem ocorrências de uma variável única e a mesma paraYi ) teriam umamédia de0. Pelo contrário, se construirmos duas variáveisX,Yprimeiro (criadas considerando oXX1=X1X1¯,,X6=X6X6¯,Y1=Y1Y1¯,,Y6=Y6Y6¯SEXYXi,1i6Yi0X,Y como se fossem ocorrências de uma variável única, e o mesmo para Y i ), é claro que subtrair a média (e também dividir pelo SE de X e Y ) não mudaria as coisas.Xi,1i6YiXY

EDIT 01/01/18

Deixe- indicam a variável e j ( 1 j 12 ) do indivíduo. Então, suponha que tenhamos:ij1j12

;X1j=Y1j=10,j

;X2j=Y2j=8,j

;X3j=Y3j=6,j

;X4j=Y4j=4,j

;X5j=Y5j=2,j

.X6j=Y6j=j,j

A correlação neste caso deve ser .0.5428

Se centralizarmos cada variável, dado que, para , tanto X i como Y i não têm variação, temos: X j (isto é, para X1i5XiYi. Como parai=6, obtemos a valores deX * 6 j =j-6,5,Y * j 6 =(13-j)-6,5=6,5-Xij=Yij=0i=6X6j=j6.5,Yj6=(13j)6.5=6.5jX 's: e exatamente o oposto dos Y ) . Desde 0 = - 0 e j - 6,5 = - ( 6,5 - j ) , obtemos: X *5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.5Y0=0j6.5=(6.5j), implicando uma correlação de-1.Xij=Yiji,jX=Y1

Federico Tedeschi
fonte
Eu concordo com você, se seguirmos o segundo procedimento. Por isso, acredito que Ruben van Bergen quis dizer o que descrevi no 1º procedimento. Neste caso, temos que: , mas c o r ( X , Y ) = c o r ( X * , Y * )cor(Xi,Yi)=cor(Xi,Yi),icor(X,Y)=cor(X,Y)geralmente não é verdade. Estou editando minha postagem para mostrar um contra-exemplo.
Federico Tedeschi
Os valores que dão uma correlação de são: X = 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 6 , 6 ,0.5428 ; Y = 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 8 , 8 , 8X=10,10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,1,2,3,4,5,6,7,8,9,10,11,12 . Não importa se a correlação é realmente 0,5428Y=10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,12,11,10,9,8,7,6,5,4,3,2,10.5428, uma vez que é claramente diferente de . 1
Federico Tedeschi
A correlação entre e X = 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,, 0 , 0 , 0 , 0 , - 4,5 , - 5,5 é - 1 . O fato de você dizer issoX=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.5 X = 1 , , 12 e YX=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.51X=1,,12 leva a c o r ( X , Y ) = c o r ( X * , Y * ) = - 1 é verdade, mas isso só meios que c o r ( X iY=12,,1cor(X,Y)=cor(X,Y)=1 , que é algo que eu já escrevi. cor(Xi,Yi)=cor(Xi,Yi)
Federico Tedeschi
Claro cor(X;Y)=cor(XX¯;YY¯)
XX¯X1X¯,X2X¯,,XnX¯