Além dos inúmeros comentários (corretos) de outros usuários, apontando que o valor- para é idêntico ao valor- para o teste global , observe que você também pode obter o valor- associado a "diretamente" usando o fato de que sob a hipótese nula é distribuído como , onde e são o numerador e graus de liberdade do denominador, respectivamente, para a estatística F associada .pr2pFpr2r2Beta(vn2,vd2)vnvdF
O terceiro marcador na subseção Derivado de outras distribuições da entrada Wikipedia na distribuição beta nos diz que:
Se e são independentes, então \ frac {X} {X + Y} \ sim \ textrm {Beta} (\ frac {\ alpha} {2}, \ frac {\ beta} {2}) .X∼χ2(α)Y∼χ2(β)XX+Y∼Beta(α2,β2)
Bem, podemos escrever r2 nessa forma XX+Y .
Seja a soma total dos quadrados para uma variável , seja a soma dos erros quadráticos para uma regressão de em algumas outras variáveis e seja a "soma dos quadrados reduzidos", ou seja, . Então
E, é claro, sendo somas de quadrados, e são ambos distribuídos como com e graus de liberdade, respectivamente. Portanto,
Y S S E Y S S R S S R = S S Y - S S E R 2 = 1 - S S ESSYYSSEYSSRSSR=SSY−SSE SSRSSE×2vnvdr2~beta(vn
r2=1−SSESSY=SSY−SSESSY=SSRSSR+SSE
SSRSSEχ2vnvdr2∼Beta(vn2,vd2)
(É claro que eu não mostrei que os dois quadrados são independentes. Talvez um comentarista possa dizer algo sobre isso.)
Demonstração em R (código emprestado de @gung):
set.seed(111)
x = runif(20)
y = 5 + rnorm(20)
cor.test(x,y)
# Pearson's product-moment correlation
#
# data: x and y
# t = 1.151, df = 18, p-value = 0.2648
# alternative hypothesis: true correlation is not equal to 0
# 95 percent confidence interval:
# -0.2043606 0.6312210
# sample estimates:
# cor
# 0.2618393
summary(lm(y~x))
# Call:
# lm(formula = y ~ x)
#
# Residuals:
# Min 1Q Median 3Q Max
# -1.6399 -0.6246 0.1968 0.5168 2.0355
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 4.6077 0.4534 10.163 6.96e-09 ***
# x 1.1121 0.9662 1.151 0.265
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.061 on 18 degrees of freedom
# Multiple R-squared: 0.06856, Adjusted R-squared: 0.01681
# F-statistic: 1.325 on 1 and 18 DF, p-value: 0.2648
1 - pbeta(0.06856, 1/2, 18/2)
# [1] 0.2647731
set.seed(111); x = runif(20); y = 5 + rnorm(20); cor.test(x,y); summary(lm(y~x))
. Ep para r é.265
. OP para b e para o teste F global são idênticos, mesmo que p para a seja6.96e-09
.R
1 - pbeta(0.06856, 1/2, 18/2)
0.2647731
.265
, como eles não são idênticos?Existem várias maneiras de derivar a estatística de teste para testes da correlação de Pearson, . Para obter um valor , vale enfatizar que você precisa de um teste e uma distribuição amostral de uma estatística de teste sob a hipótese nula. Seu título e sua pergunta parecem ter alguma confusão entre a correlação de Pearson e a "variação explicada" . Vou considerar o coeficiente de correlação primeiro.p r 2ρ p r2
Não há "melhor" maneira de testar a correlação de Pearson que eu conheço. A transformação Z de Fisher é uma dessas formas, baseada em transformações hiperbólicas, para que a inferência seja um pouco mais eficiente. Essa é certamente uma abordagem "boa", mas o triste é que a inferência para esse parâmetro é consistente com a inferência sobre o parâmetro de inclinação para associação: eles contam a mesma história a longo prazo.β
A razão pela qual os estatísticos (classicamente) totalmente testes de preferido é porque nós não têm uma "melhor" teste: regressão linear, que é o estimador AZUL. Nos dias de estatística moderna, realmente não nos importamos mais se um teste é "melhor", mas a regressão linear tem muitas outras propriedades fantásticas que justificam seu uso contínuo para determinar a associação entre duas variáveis. Em geral, sua intuição está certa: elas são essencialmente a mesma coisa, e focamos nossa atenção em como uma medida mais prática de associação.ββ β
O é uma função da inclinação e da interceptação. Se qualquer um desses valores for diferente de zero, o deve ter uma distribuição de amostragem discernível em relação àquela que seria esperada se os parâmetros lineares fossem zero. No entanto, derivar distribuições de sob nulo e comparando sob alguma hipótese alternativa não me dá muita confiança de que esse teste tenha muito poder para detectar o que queremos. Apenas um pressentimento. Novamente, voltando-se para os "melhores" estimadores, o OLS nos fornece as "melhores" estimativas da inclinação e da interceptação, por isso temos a confiança de que nosso teste é pelo menos bom para determinar a mesma associação (se houver) testando diretamente os parâmetros do modelo . Para mim, testando em conjunto or 2 r 2 r 2 α β r 2r2 r2 r2 r2 α e com OLS é superior a qualquer teste sobre exceto em um caso raro (talvez) de um aplicativo de calibração de modelagem preditiva não aninhada ... mas o BIC provavelmente seria uma medida melhor nesse cenário.β r2
fonte
fonte