Minha pergunta surgiu de uma discussão com @whuber nos comentários de uma pergunta diferente .
Especificamente, o comentário de @whuber foi o seguinte:
Uma razão pela qual você pode surpreender é que as suposições subjacentes a um teste de correlação e a um teste de inclinação de regressão são diferentes - portanto, mesmo quando entendemos que a correlação e a inclinação estão realmente medindo a mesma coisa, por que seus valores de p devem ser os mesmos? Isso mostra como essas questões são mais profundas do que simplesmente se e devem ser numericamente iguais.
Isso me fez pensar e me deparei com uma variedade de respostas interessantes. Por exemplo, encontrei esta pergunta " Pressupostos do coeficiente de correlação ", mas não consigo ver como isso esclareceria o comentário acima.
Encontrei respostas mais interessantes sobre a relação de de Pearson e a inclinação em uma regressão linear simples (veja aqui e aqui, por exemplo), mas nenhuma delas parece responder a que @whuber estava se referindo em seu comentário (pelo menos não aparente para mim).β
Pergunta 1: Quais são as premissas subjacentes a um teste de correlação e um teste de inclinação de regressão?
Para minha segunda pergunta, considere as seguintes saídas em R
:
model <- lm(Employed ~ Population, data = longley)
summary(model)
Call:
lm(formula = Employed ~ Population, data = longley)
Residuals:
Min 1Q Median 3Q Max
-1.4362 -0.9740 0.2021 0.5531 1.9048
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3807 4.4224 1.895 0.0789 .
Population 0.4849 0.0376 12.896 3.69e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF, p-value: 3.693e-09
E a saída da cor.test()
função:
with(longley, cor.test(Population, Employed))
Pearson's product-moment correlation
data: Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8869236 0.9864676
sample estimates:
cor
0.9603906
Como pode ser visto pela saída lm()
e cov.test()
, o coeficiente de correlação de Pearson e a estimativa da inclinação ( β 1 ) são amplamente diferentes, 0,96 vs. 0,485, respectivamente, mas o valor t e os valores p são os mesmos.
Então eu também tentei ver se eu sou capaz de calcular o t-valor para e β 1 , que são as mesmas, apesar r e β 1 ser diferente. E é aí que eu fico preso, pelo menos para r :
Calcular o declive ( ) em uma regressão linear simples utilizando as somas totais de quadrados de x e y :
x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))
Calcule a estimativa de mínimos quadrados da inclinação de regressão, (há uma prova disso na R Book 1st edition , Crawley, R, 1ª edição , página 393):
b1 <- ss.xy/ss.x
b1
# [1] 0.4848781
Calcule o erro padrão para :
ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029
E o valor t e o valor p para :
t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09
O que eu não sei neste momento, e esta é a pergunta 2 , é: como calcular o mesmo valor t usando vez de β 1 (talvez em etapas de bebê)?
Suponho que, como cor.test()
a hipótese alternativa é se a correlação verdadeira não é igual a 0 (veja a cor.test()
saída acima), eu esperaria algo como o coeficiente de correlação de Pearson dividido pelo "erro padrão do coeficiente de correlação de Pearson" (semelhante ao acima)?! Mas qual seria esse erro padrão e por quê?b1/se.b1
Talvez isso tenha algo a ver com as suposições acima mencionadas subjacentes a um teste de correlação e um teste de inclinação de regressão ?!
EDIT (27-Jul-2017): Enquanto o @whuber forneceu uma explicação muito detalhada para a Questão 1 (e em parte a Questão 2 , veja os comentários sob sua resposta), eu fiz algumas escavações e descobri que essas duas postagens ( aqui e aqui ) mostre um erro padrão específico para , que funciona bem para responder à pergunta 2 , que é reproduzir o valor t dado r :
r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956
fonte
Respostas:
Introdução
Esta resposta aborda a motivação subjacente a este conjunto de perguntas:
À luz do pano de fundo fornecido na pergunta, porém, eu gostaria de sugerir expandir um pouco essa questão: vamos explorar os diferentes propósitos e concepções de correlação e regressão.
A correlação geralmente é invocada em situações em que
Os dados são bivariados: exatamente dois valores distintos de interesse estão associados a cada "sujeito" ou "observação".
Os dados são observacionais: nenhum dos valores foi definido pelo experimentador. Ambos foram observados ou medidos.
O interesse reside em identificar, quantificar e testar algum tipo de relacionamento entre as variáveis.
A regressão é usada onde
Os dados são bivariados ou multivariados: pode haver mais de dois valores distintos de interesse.
O interesse se concentra em entender o que pode ser dito sobre um subconjunto de variáveis - as variáveis "dependentes" ou "respostas" - com base no que pode ser conhecido sobre o outro subconjunto - as variáveis "independentes" ou "regressores".
Valores específicos dos regressores podem ter sido definidos pelo experimentador.
Esses objetivos e situações diferentes levam a abordagens distintas. Como esse segmento está preocupado com suas semelhanças, vamos nos concentrar no caso em que eles são mais semelhantes: dados bivariados. Em ambos os casos, esses dados serão tipicamente modelados como realizações de uma variável aleatória . Muito geralmente, ambas as formas de análise buscam caracterizações relativamente simples dessa variável.(X,Y)
Correlação
Eu acredito que "análise de correlação" nunca foi geralmente definida. Deveria limitar-se a calcular os coeficientes de correlação ou poderia ser considerado mais extensivamente como compreendendo PCA, análise de cluster e outras formas de análise que relacionam duas variáveis? Seja seu ponto de vista restrito ou amplo, talvez você concorde que a seguinte descrição se aplica:
Por exemplo, você pode começar assumindo que tem uma distribuição normal bivariada e usar o coeficiente de correlação de Pearson dos dados para estimar um dos parâmetros dessa distribuição. Essa é uma das mais estreitas (e mais antigas) concepções de correlação.(X,Y)
Como outro exemplo, você pode estar assumindo que pode ter qualquer distribuição e usar uma análise de cluster para identificar k "centros". Pode-se interpretar isso como o início de uma resolução da distribuição de ( X , Y ) em uma mistura de distribuições bivariadas unimodais, uma para cada cluster.(X,Y) k (X,Y)
Uma coisa comum a todas essas abordagens é um tratamento simétrico de e Y : nenhuma é privilegiada em relação à outra. Ambos desempenham papéis equivalentes.X Y
Regressão
Regressão goza de uma definição clara e universalmente entendida:
Historicamente, regressão traça as suas raízes a descoberta de Galton (c 1,885.) Que os dados normais bivariáveis desfrutar de uma linear de regressão: a esperança condicional de Y é uma função linear de X . Num extremo do espectro especial geral é de mínimos quadrados (OLS) regressão em que a distribuição condicional de Y é assumido como sendo normal ( β 0 + β 1 X , σ 2 ) para parâmetros fixos β 0 , β 1 , e σ(X,Y) Y X Y (β0+β1X,σ2) β0,β1, σ a ser estimado a partir dos dados.
No extremo extremamente geral desse espectro estão modelos lineares generalizados, modelos aditivos generalizados e outros de sua classe que relaxam todos os aspectos do OLS: a expectativa, a variação e até a forma da distribuição condicional de podem variar de maneira não linear. com X . O conceito de que sobrevive toda essa generalização é que os restos de juros focada na compreensão de como Y depende X . Essa assimetria fundamental ainda está lá.Y X Y X
Correlação e Regressão
Uma situação muito especial é comum a ambas as abordagens e é frequentemente encontrada: o modelo normal bivariado. Nesse modelo, um gráfico de dispersão assumirá uma forma clássica de "futebol", oval ou charuto: os dados são distribuídos elipticamente em torno de um par ortogonal de eixos.
Uma análise de correlação enfoca a "força" desse relacionamento, no sentido de que uma propagação relativamente pequena em torno do eixo principal é "forte".
(Vale a pena ponderar as claras diferenças geométricas entre essas duas descrições: elas iluminam as diferenças estatísticas subjacentes.)
Esse aplicativo comum, que é o primeiro que alguém aprende, pode dificultar o reconhecimento da correlação e regressão diferentes em seus conceitos e objetivos. Somente quando aprendemos sobre suas generalizações é que as diferenças subjacentes são expostas. Seria difícil interpretar um GAM como fornecendo muitas informações sobre "correlação", assim como seria difícil enquadrar uma análise de cluster como uma forma de "regressão". Os dois são diferentes famílias de procedimentos com objetivos diferentes, cada um útil por si só quando aplicado adequadamente.
fonte
Como a resposta do @ whuber sugere, existem vários modelos e técnicas que podem se enquadrar no campo de correlação que não possuem análogos claros no mundo da regressão e vice-versa. No entanto, em geral, quando as pessoas pensam, comparam e contrastam regressão e correlação, elas estão de fato considerando dois lados da mesma moeda matemática (geralmente uma regressão linear e uma correlação de Pearson). Se eles devem ter uma visão mais ampla de ambas as famílias de análises é um debate separado, e que os pesquisadores devem enfrentar pelo menos minimamente.
Nesta visão restrita da regressão e da correlação, as explicações a seguir devem ajudar a elucidar como e por que suas estimativas, erros padrão e valores de p são essencialmente variantes uma da outra.
Com o dataframe
dat
sendo olongley
conjunto de dados mencionado acima, obtemos o seguinte para o cor.test. (Não há nada novo aqui, a menos que você tenha pulado a pergunta acima e tenha ido direto à leitura das respostas):E o seguinte para o modelo linear (também o mesmo que acima):
Agora, para o novo componente para esta resposta. Primeiro, crie duas novas versões padronizadas das variáveis
Employed
ePopulation
:Segundo, execute novamente a regressão:
Voila! A inclinação da regressão é igual ao coeficiente de correlação de cima. A resposta à pergunta 1 é que as suposições para os dois testes são essencialmente as mesmas:
Para a pergunta 2 , vamos começar com o erro padrão da fórmula da inclinação de regressão usada acima (implícita no código R - mas declarado abaixo):
A partir dessa fórmula, você pode obter a seguinte expressão condensada e mais útil ( consulte este link passo a passo ):
Acho que você descobrirá que, se resolver esta equação para os modelos lineares não padronizados e padronizados (ou seja, correlação), obterá os mesmos valores de p e t para suas inclinações. Ambos os testes baseiam-se na estimativa de mínimos quadrados comuns e fazem as mesmas suposições. Na prática, muitos pesquisadores ignoram a verificação de suposições para modelos de correlação linear simples e correlações, embora eu ache ainda mais prevalente fazê-lo para correlações, pois muitas pessoas não as reconhecem como casos especiais de regressões lineares simples. (Nota: não é uma boa prática a adotar)
fonte
r <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956
Aqui está uma explicação da equivalência do teste, mostrando também como re eb estão relacionados.
http://www.real-statistics.com/regression/hypothesis-testing-significance-regression-line-slope/
Para executar o OLS, é necessário fazer https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions
Além disso, OLS e corr requerem a suposição de amostragem aleatória.
A construção de um teste corr pressupõe:
Temos uma "amostra aleatória e grande o suficiente" da população de (x, y).
fonte
Em relação à questão 2
Eu não acho que é possível calcular ot estatística do r valor, no entanto, a mesma inferência estatística pode ser derivada da F estatística, onde a hipótese alternativa é que o modelo não explique os dados, e isso pode ser calculado a partir de r .
Comk = 2 parâmetros no modelo e n = da t a p o i n t s
Com a restrição de que
Fonte: Teste de hipóteses no modelo de regressão múltipla
fonte