Os valores de p para o teste de correlação de Pearson podem ser calculados apenas a partir do coeficiente de correlação e tamanho da amostra?

12

Antecedentes: Li um artigo em que os autores relatam a correlação de Pearson 0,754 do tamanho da amostra 878. O valor p resultante para o teste de correlação é "duas estrelas" significativo (isto é, p <0,01). No entanto, acho que, com um tamanho de amostra tão grande, o valor de p correspondente deve ser menor que 0,001 (ou seja, três estrelas significativo).

  • Os valores de p para este teste podem ser calculados apenas a partir do coeficiente de correlação de Pearson e tamanho da amostra?
  • Se sim, como isso pode ser feito no R?
Miroslav Sabo
fonte
1
Para os interessados, aqui está uma calculadora de valor p on-line que leva r e n .
Jeromy Anglim

Respostas:

13

Sim, isso pode ser feito se você usar a transformação de R para z de Fisher. Outros métodos (por exemplo, inicialização) podem ter algumas vantagens, mas requerem os dados originais. Em R ( r é o coeficiente de correlação da amostra, n é o número de observações):

z <- 0.5 * log((1+r)/(1-r))
zse <- 1/sqrt(n-3)
min(pnorm(z, sd=zse), pnorm(z, lower.tail=F, sd=zse))*2

Veja também este post no meu blog .

Dito isto, seja 0,01 ou 0,001, não importa muito. Como você disse, isso depende principalmente do tamanho da amostra e você já sabe que o tamanho da amostra é grande. A conclusão lógica é que você provavelmente nem precisa de um teste (especialmente não um teste da chamada hipótese "nula" de que a correlação é 0). Com N = 878, você pode estar bastante confiante na precisão da estimativa e se concentrar em interpretá-la diretamente (ou seja, é 0,75 grande em seu campo?).

Formalmente, no entanto, quando você faz um teste estatístico na estrutura Neyman-Pearson, precisa especificar o nível de erro antecipadamente. Portanto, se os resultados do teste realmente importam e o estudo foi planejado com 0,01 como limite, faz sentido relatar p <0,01 e você não deve oportunamente fazê-lo p <0,001 com base no valor de p obtido . Esse tipo de flexibilidade não revelada é até uma das principais razões por trás das críticas a estrelinhas e, mais geralmente, à maneira como o teste de significância de hipóteses nulas é praticado nas ciências sociais.

Veja também Meehl, PE (1978). Riscos teóricos e asteriscos tabulares: Sir Karl, Sir Ronald e o lento progresso da psicologia branda.Jornal de Consultoria e Psicologia Clínica, 46 (4), 806-834. (O título contém uma referência a essas "estrelas", mas o conteúdo é uma discussão muito mais ampla sobre o papel dos testes de significância.)

Gala
fonte
1
Eu provavelmente os aconselharia a desistir das estrelinhas, mesmo que os resultados estejam corretos, mas entendo o seu ponto.
Gala #
1
Editei minha resposta para adicionar um comentário sobre esse problema. Observe que 0,001 <0,01, para que os autores estejam formalmente "corretos" em qualquer caso, é mais uma questão de como a forma como os resultados são relatados implica. Eu pensaria que, diferentemente de um erro definitivo que um revisor deveria, é claro, corrigir, esse assunto deveria ser deixado aos autores para decidir.
Gala #
1
Você está certo, mas até agora nunca vi relatar p <0,01 se p for realmente menor que 0,001 (sem dizer que o nível de confiança do artigo é 0,01). Além disso, no artigo que falo, os autores relatam 30 testes de correlação com base em tamanhos de amostra variando de 837 a 886 com correlações variando de 0,145 a 0,754 e todos são relatados como significativos de duas estrelas.
Miroslav Sabo
1
Tenho um problema para postar meu código aqui, mas executo simulações e o valor p do seu código não é o mesmo que valor p de cor.test.
Miroslav Sabo
4
Eu escrevi uma revisão tutorial do uso do z de Fisher para correlações acessíveis em stata-journal.com/sjpdf.html?articlenum=pr0041 Eu recomendaria mais uso de intervalos de confiança e calcularia 0,724, 0,781 como limites de 95%. Eu recomendaria ainda mais olhar para os dados e elaborar uma regressão.
perfil completo de Nick Cox
2

você usa a transformação R-to-z de Fisher.

Há uma estatística alternativa:

abs(r)*sqrt((n-2)/(1-r^2)) ~ t.dist(d.f.=n-2)

que tem distribuição t com n-2 graus de liberdade. É assim que funciona, por exemplo: http://www.danielsoper.com/statcalc3/calc.aspx?id=44

Germaniawerks
fonte