Isenção de responsabilidade: se você acha que essa pergunta é muito semelhante a outra, fico feliz em ser mesclada. No entanto, não encontrei uma resposta satisfatória em nenhum outro lugar (e ainda não tenho a "reputação" de comentar ou votar), então achei que seria melhor fazer uma nova pergunta.
Minha pergunta é essa. Para cada um dos 12 indivíduos humanos, calculei um coeficiente de correlação (rho de Spearman) entre 6 níveis de uma variável independente X e as observações correspondentes de uma variável dependente Y. (Nota: os níveis de X não são iguais entre os sujeitos.) hipótese nula é que, na população em geral, essa correlação é igual a zero. Eu testei essa hipótese de duas maneiras:
Usando um teste t de uma amostra sobre os coeficientes de correlação obtidos dos meus 12 indivíduos.
Centralizando meus níveis de X e observações de Y de modo que, para cada participante, média (X) = 0 e média (Y) = 0 e calculando uma correlação sobre os dados agregados (72 níveis de X e 72 observações de Y) .
Agora, lendo sobre como trabalhar com coeficientes de correlação (aqui e em outros lugares), comecei a duvidar se a primeira abordagem é válida. Particularmente, vi a seguinte equação aparecer em vários lugares, apresentada (aparentemente) como um teste t para coeficientes de correlação médios:
onde seria o coeficiente de correlação médio (e vamos assumir que obtivemos isso usando a transformação de Fisher nos coeficientes por sujeito primeiro) e n o número de observações. Intuitivamente, isso me parece errado, pois não inclui nenhuma medida da variabilidade entre os sujeitos. Em outras palavras, se eu tivesse 3 coeficientes de correlação, obteria a mesma estatística t se fossem [0,1, 0,5, 0,9] ou [0,45 0,5 0,55] ou qualquer faixa de valores com a mesma média (e n = 3 )
Suspeito, portanto, que a equação acima não se aplique de fato ao testar a significância de uma média de coeficientes de correlação, mas ao testar a significância de um único coeficiente de correlação com base em observações de 2 variáveis.
Alguém aqui pode confirmar esta intuição ou explicar por que está errada? Além disso, se essa fórmula não se aplicar ao meu caso, alguém conhece a / a abordagem correta? Ou talvez meu próprio teste número 2 já seja válido? Qualquer ajuda é muito apreciada (incluindo indicadores de respostas anteriores que eu possa ter esquecido ou mal interpretado).
fonte
Respostas:
Uma abordagem melhor para analisar esses dados é usar um modelo misto (também conhecido como modelo de efeitos mistos, modelo hierárquico) com
subject
um efeito aleatório (interceptação aleatória ou interceptação aleatória + inclinação). Para resumir uma resposta diferente da minha:Essa é essencialmente uma regressão que modela um único relacionamento geral, permitindo que esse relacionamento seja diferente entre os grupos (os seres humanos). Essa abordagem se beneficia do pool parcial e usa seus dados com mais eficiência.
fonte
Eu suponho que as variáveis ( 6 X e 6 Y ) são iguais para todos os indivíduos (na verdade, não tenho certeza de entender o que você quer dizer com os níveis não iguais entre os sujeitos: espero que você seja referindo-se à independência entre os intervalos das variáveis, e não sobre quais variáveis são medidas para cada indivíduo). Sim, a fórmula que você mostrou se aplica ao coeficiente de correlação entre duas variáveis.12 6 X 6 Y
No seu ponto 2, você fala sobre normalização: Eu acho que isso faria sentido se você fez isso para cada um dos variáveis separadamente. No entanto, mesmo assim, o problema com essa abordagem é que ela não controla a dependência dentro do indivíduo.6∗2
Acredito que sua abordagem 1 também não é válida, porque seria um teste entre variáveis com distribuição t com apenas 10 graus de liberdade; portanto, não acho que você possa aplicar o Teorema do Limite Central neste caso.6 t 10
Talvez, com números maiores, é possível usar uma abordagem efeito aleatório, permitindo uma inclinação ao acaso e, simultaneamente, tanto para testar um coeficiente médio nulo (de em Y i ) e não existência de um coeficiente de forma aleatória. Acredito, no entanto, 6 variáveis e 12 observações não são suficientes para fazê-lo.Xi Yi
Eu sugiro que você o veja como um teste em 6 valores (tornando-se 12 se você também considerar valores abaixo da diagonal) da matriz de correlação entre as variáveis (tanto o X quanto o Y ), ou seja, aquelas na diagonal do 2º (e equivalente ao terceiro) quadrante. Assim, eu faria um teste de razão de verossimilhança entre o modelo restrito e o irrestrito.12 X Y
@Alexis Meu entendimento é que centralizando , Y 1 , … , Y 6 , substituindo-os por XX1,…,X6 Y1,…,Y6 faria sentido (acho que também faria sentido para dividi-los pelo seuSE's). Dessa forma, as variáveisX∗eY∗(criadas considerandoX ∗ i ,1≤i≤6como se fossem ocorrências de uma variável única e a mesma paraY ∗ i ) teriam umamédia de0. Pelo contrário, se construirmos duas variáveisX,Yprimeiro (criadas considerando oXX∗1=X1−X1¯,…,X∗6=X6−X6¯,Y∗1=Y1−Y1¯,…,Y∗6=Y6−Y6¯ SE X∗ Y∗ X∗i,1≤i≤6 Y∗i 0 X,Y como se fossem ocorrências de uma variável única, e o mesmo para Y i ), é claro que subtrair a média (e também dividir pelo SE de X e Y ) não mudaria as coisas.Xi,1≤i≤6 Yi X Y
EDIT 01/01/18
Deixe- indicam a variável e j ( 1 ≤ j ≤ 12 ) do indivíduo. Então, suponha que tenhamos:i j 1≤j≤12
;X1j=Y1j=10,∀j
;X2j=Y2j=8,∀j
;X3j=Y3j=6,∀j
;X4j=Y4j=4,∀j
;X5j=Y5j=2,∀j
.X6j=−Y6j=j,∀j
A correlação neste caso deve ser .0.5428
Se centralizarmos cada variável, dado que, para , tanto X i como Y i não têm variação, temos: X ∗ j (isto é, para X1≤i≤5 Xi Yi . Como parai=6, obtemos a valores deX * 6 j =j-6,5,Y * j 6 =(13-j)-6,5=6,5-X∗ij=Y∗ij=0 i=6 X∗6j=j−6.5,Y∗j6=(13−j)−6.5=6.5−j X 's: e exatamente o oposto dos Y ) . Desde 0 = - 0 e j - 6,5 = - ( 6,5 - j ) , obtemos: X *−5.5,−4.5,−3.5,−2.5,−1.5,−0.5,0.5,1.5,2.5,3.5,4.5,5.5 Y 0=−0 j−6.5=−(6.5−j) , implicando uma correlação de-1.X∗ij=−Y∗ij∀i,j→X∗=−Y∗ −1
fonte