A linha inferior
O coeficiente de correlação da amostra necessário para rejeitar a hipótese de que o coeficiente de correlação verdadeiro (Pearson) é zero se torna pequeno rapidamente, à medida que o tamanho da amostra aumenta. Portanto, em geral, não, você não pode ter simultaneamente um grande coeficiente de correlação (em magnitude) e um valor- simultaneamente grandep .
The Top Line (Detalhes)
O teste usado para o coeficiente de correlação de Pearson na função é uma versão ligeiramente modificada do método que discuto abaixo.Rcor.test
Suponha que sejam vetores aleatórios normais bivariados com sua correlação . Queremos testar a hipótese nula de que versus . Seja o coeficiente de correlação da amostra. Usando a teoria de regressão linear padrão, não é difícil mostrar que a estatística de teste,
possui distribuição sob a hipótese nula. Para grande , a distribuição aproxima do normal padrão. Portanto,ρ ρ = 0 ρ ≠ 0 r T = r √( X1, Y1) , ( X2, Y2) , … , ( Xn, Yn)ρρ = 0p ≠ 0r tn-2ntn-2T2T2∼F1,n-2χ21
T= r n - 2-----√( 1 - r2)------√
tn - 2ntn - 2T2é aproximadamente qui-quadrado distribuído com um grau de liberdade. (De acordo com as premissas que fizemos, na realidade, mas a aproximação torna mais claro o que está acontecendo, eu acho.)
T2∼ F1 , n - 2χ21
Então,
onde é o quantil de uma distribuição qui-quadrado com um grau de liberdade.q 1 - α ( 1 - α )
P ( r21 - r2( n - 2 ) ≥ q1 - α) ≈α,
q1 - α( 1 - α )
Agora, observe que está aumentando à medida que aumenta. Reorganizando a quantidade na declaração de probabilidade, temos isso para todos
receberemos uma rejeição da hipótese nula no nível . Claramente, o lado direito diminui com .r 2 | r | ≥ 1r2/ (1- r2)r2 αn
| r | ≥ 11 + ( n - 2 ) / q1 - α-------------√
αn
O enredo
Aqui está um gráfico da região de rejeição deem função do tamanho da amostra. Portanto, por exemplo, quando o tamanho da amostra excede 100, a correlação (absoluta) precisa ser apenas cerca de 0,2 para rejeitar o nulo no nível .α = 0,05| r |α = 0,05
Uma simulação
Podemos fazer uma simulação simples para gerar um par de vetores com média zero com um coeficiente de correlação exato . Abaixo está o código. A partir disso, podemos olhar para a saída de cor.test
.
k <- 100
n <- 4*k
# Correlation that gives an approximate p-value of 0.05
# Change 0.05 to some other desired p-value to get a different curve
pval <- 0.05
qval <- qchisq(pval,1,lower.tail=F)
rho <- 1/sqrt(1+(n-2)/qval)
# Zero-mean orthogonal basis vectors
b1 <- rep(c(1,-1),n/2)
b2 <- rep(c(1,1,-1,-1),n/4)
# Construct x and y vectors with mean zero and an empirical
# correlation of *exactly* rho
x <- b1
y <- rho * b1 + sqrt(1-rho^2) * b2
# Do test
ctst <- cor.test(x,y)
Conforme solicitado nos comentários, eis o código para reproduzir o gráfico, que pode ser executado imediatamente após o código acima (e usa algumas das variáveis definidas aqui).
png("cortest.png", height=600, width=600)
m <- 3:1000
yy <- 1/sqrt(1+(m-2)/qval)
plot(m, yy, type="l", lwd=3, ylim=c(0,1),
xlab="sample size", ylab="correlation")
polygon( c(m[1],m,rev(m)[1]), c(1,yy,1), col="lightblue2", border=NA)
lines(m,yy,lwd=2)
text(500, 0.5, "p < 0.05", cex=1.5 )
dev.off()
cor = 0,866, p = 0,333
fonte
Uma estimativa alta do coeficiente de correlação com um alto valor de p só poderia ocorrer com um tamanho de amostra muito pequeno. Eu estava prestes a fornecer uma ilustração, mas Aaron acabou de fazer isso!
fonte
Acredito que, pela transformação Fisher RZ , o arcano hiperbólico da correlação da amostra, sob o nulo, é aproximadamente normal com zero médio e erro padrão . Portanto, para obter, por exemplo, uma amostra de correlação com um valor p fixo, , você precisaria de que é o CDF do padrão normal e você está executando um teste de dois lados para o nulo .ρ >0pp=2-2Φ ( atanh( ρ ) √1 / n - 3-----√ ρ^> 0 p ΦH0:ρ=0
Você pode transformar isso em uma função que fornece o necessário para um fixo e . Em R:ρn ρ^ p
A execução deste para e dá:p=0,2ρ^=0.5 p=0.2
Portanto, seu tamanho de amostra deve ser em torno de 8. Brincar com esta função deve fornecer uma idéia da relação entre e .ρn,p ρ^
fonte
Sim. Um valor p depende do tamanho da amostra, portanto, uma amostra pequena pode fornecer isso.
Digamos que o tamanho real do efeito foi muito pequeno e você desenhou uma pequena amostra. Por sorte, você obtém alguns pontos de dados com correlação muito alta. O valor p será alto, como deveria ser. A correlação é alta, mas não é um resultado muito confiável.
A correlação da amostra de R () mostrará a melhor estimativa da correlação (dada a amostra). O valor p NÃO mede a força da correlação. Ele mede a probabilidade de surgir caso não houvesse efeito, considerando o tamanho da amostra.
Outra maneira de ver isso: se você tem o mesmo tamanho de efeito, mas obtém mais amostras, o valor p sempre é zero.
(Se você deseja integrar mais de perto as noções de tamanho de efeito estimado e confiança sobre a estimativa, pode ser melhor usar intervalos de confiança; ou, usar técnicas bayesianas.)
fonte
x <- seq(0,4); y <- seq(0,4) + rnorm(5); cor.test(x,y)