Distribuição da correlação da amostra

8

Suponha que eu tenha uma grande população de pontos de dados e que a correlação de Pearson seja(x,y)

corr(X,Y)=ρ

O que posso dizer razoavelmente sobre a correlação que espero observar em uma amostra de tamanho ? Se a correlação da amostra for , aproximadamente qual é o spread ? É tendenciosa?ρ s ρ s ρ snρsρsρs

Se fizermos algumas suposições como normalidade, podemos calcular a função de probabilidade exata de como uma função de ? ρρsρ

(Por fim, estou pensando no problema de saber se uma correlação alta observada é um acaso ou não, e tudo o que tenho é o tamanho da amostra e a correlação.)

Mark Eichenlaub
fonte
2
onestop forneceu uma resposta que, com sorte, lhe dará o suficiente para continuar. Se você realmente deseja saber sobre a distribuição do coeficiente de correlação da amostra em si, a referência definitiva é: Hotelling, H. (1953). Nova luz sobre o coeficiente de correlação e suas transformações. Jornal da Sociedade Estatística Real, Série B, 15, 193-232. Observe que isso não é leitura clara.
Wolfgang
Eu não acho que seus gráficos estão certos. Acabei de desenhar alguns gráficos da distribuição derivada da fórmula de Fisher, que mostram que está corretamente centralizada. De fato, é bastante óbvio a partir da fórmula que deve ser assintoticamente imparcial para . Você poderia postar o núcleo matemático do seu código? N
onestop
@onestop Claro. Adicionado código do Mathematica.
Mark Eichenlaub
Não é assim que os pdfs se transformam - é um pouco mais complicado. Veja en.wikipedia.org/wiki/…
onestop
@ onestop Claro. Obrigado. Percebi que havia um problema depois que eu publiquei o código, mas levaria um tempo para descobrir como corrigi-lo.
Mark Eichenlaub

Respostas:

7

Para citar o artigo da Wikipedia sobre a transformação de Fisher :

Se tiver uma distribuição normal bivariada e se os pares ( X i , Y i ) usados ​​para formar o coeficiente de correlação da amostra r forem independentes para i = 1 , , n , então z = 1(X,Y)(Xi,Yi)ri=1,,n,é distribuído aproximadamente normalmente com média 1

z=12ln1+r1r=arctanh(r)
e o erro padrão 112ln1+ρ1ρ, ondeNé o tamanho da amostra.1N3,N
uma parada
fonte
desculpe-me por não aceitar. Quando tentei usar essa resposta, descobri que não funcionava para a situação em que me interessava (altos coeficientes de correlação).
Mark Eichenlaub
@ Marcos, eu fiz algumas simulações com R, tudo é válido bonita para correlação 0,75
mpiktas
@mpiktas Sim, você está certo, obrigado. Cometi um erro no meu caderno.
Mark Eichenlaub
1
A distribuição exata é conhecida: é dada por uma função hipergeométrica .
whuber