Diferença entre os pressupostos subjacentes a uma correlação e testes de significância de regressão

21

Minha pergunta surgiu de uma discussão com @whuber nos comentários de uma pergunta diferente .

Especificamente, o comentário de @whuber foi o seguinte:

Uma razão pela qual você pode surpreender é que as suposições subjacentes a um teste de correlação e a um teste de inclinação de regressão são diferentes - portanto, mesmo quando entendemos que a correlação e a inclinação estão realmente medindo a mesma coisa, por que seus valores de p devem ser os mesmos? Isso mostra como essas questões são mais profundas do que simplesmente se e devem ser numericamente iguais.rβ

Isso me fez pensar e me deparei com uma variedade de respostas interessantes. Por exemplo, encontrei esta pergunta " Pressupostos do coeficiente de correlação ", mas não consigo ver como isso esclareceria o comentário acima.

Encontrei respostas mais interessantes sobre a relação de de Pearson e a inclinação em uma regressão linear simples (veja aqui e aqui, por exemplo), mas nenhuma delas parece responder a que @whuber estava se referindo em seu comentário (pelo menos não aparente para mim).βrβ

Pergunta 1: Quais são as premissas subjacentes a um teste de correlação e um teste de inclinação de regressão?

Para minha segunda pergunta, considere as seguintes saídas em R:

model <- lm(Employed ~ Population, data = longley)
summary(model)

Call:
lm(formula = Employed ~ Population, data = longley)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

E a saída da cor.test()função:

with(longley, cor.test(Population, Employed))

    Pearson's product-moment correlation

data:  Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

Como pode ser visto pela saída lm()e cov.test(), o coeficiente de correlação de Pearson e a estimativa da inclinação ( β 1 ) são amplamente diferentes, 0,96 vs. 0,485, respectivamente, mas o valor t e os valores p são os mesmos.rβ1

Então eu também tentei ver se eu sou capaz de calcular o t-valor para e β 1 , que são as mesmas, apesar r e β 1 ser diferente. E é aí que eu fico preso, pelo menos para r :rβ1rβ1r

Calcular o declive ( ) em uma regressão linear simples utilizando as somas totais de quadrados de x e y :β1xy

x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))

Calcule a estimativa de mínimos quadrados da inclinação de regressão, (há uma prova disso na R Book 1st edition , Crawley, R, 1ª edição , página 393):β1

b1 <- ss.xy/ss.x                        
b1
# [1] 0.4848781

Calcule o erro padrão para :β1

ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029

E o valor t e o valor p para :β1

t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09

O que eu não sei neste momento, e esta é a pergunta 2 , é: como calcular o mesmo valor t usando vez de β 1 (talvez em etapas de bebê)?rβ1

Suponho que, como cor.test()a hipótese alternativa é se a correlação verdadeira não é igual a 0 (veja a cor.test()saída acima), eu esperaria algo como o coeficiente de correlação de Pearson dividido pelo "erro padrão do coeficiente de correlação de Pearson" (semelhante ao acima)?! Mas qual seria esse erro padrão e por quê?rb1/se.b1

Talvez isso tenha algo a ver com as suposições acima mencionadas subjacentes a um teste de correlação e um teste de inclinação de regressão ?!

EDIT (27-Jul-2017): Enquanto o @whuber forneceu uma explicação muito detalhada para a Questão 1 (e em parte a Questão 2 , veja os comentários sob sua resposta), eu fiz algumas escavações e descobri que essas duas postagens ( aqui e aqui ) mostre um erro padrão específico para , que funciona bem para responder à pergunta 2 , que é reproduzir o valor t dado r :rr

r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956
Stefan
fonte
2
É o mesmo teste ou pelo menos um teste equivalente. Se você rejeitar a hipótese de que a correlação não é zero, o teste também rejeitará a hipótese de que a inclinação não seja zero.
Michael R. Chernick
6
@ Michael Right - mas existem muitos modelos em potencial aqui, e eles são surpreendentemente diferentes. Um deles é um modelo padrão de correlação, do qual o mais simples é que os dados são uma amostra de alguma distribuição normal bivariada desconhecida. Outra é uma versão de um modelo OLS para regressão de contra X - em dois sabores, regressores fixos e regressores aleatórios. Outra inverte os papéis de X e Y . Se você tem a sensação de que eles devem produzir os mesmos valores p para testes de hipótese comparáveis, isso provavelmente ocorre apenas através de uma ampla familiaridade, mas não é intuitivamente óbvio! YXXY
whuber
1
@whuber Vendo que este Q é tão bem votado, mas falta uma resposta satisfatória, iniciei uma recompensa que terminou hoje mais cedo; está no período de graça agora. Uma nova resposta foi postada e explica bem os cálculos de correlação como inclinação, mas afirma que não há diferença nas suposições, contrariamente à sua declaração citada. Minha recompensa será automaticamente concedida a essa nova resposta, a menos que outra apareça. Estou avisando caso você considere postar sua própria resposta também.
Ameba diz Reinstate Monica
1
@amoeba Obrigado; Eu não tinha notado a recompensa. Publiquei um relato parcial do que tinha em mente quando escrevi a observação que provocou essa pergunta. Espero que isso represente algum progresso na direção que você sugeriu.
whuber

Respostas:

5

Introdução

Esta resposta aborda a motivação subjacente a este conjunto de perguntas:

Quais são as premissas subjacentes a um teste de correlação e um teste de inclinação de regressão?

À luz do pano de fundo fornecido na pergunta, porém, eu gostaria de sugerir expandir um pouco essa questão: vamos explorar os diferentes propósitos e concepções de correlação e regressão.

A correlação geralmente é invocada em situações em que

  • Os dados são bivariados: exatamente dois valores distintos de interesse estão associados a cada "sujeito" ou "observação".

  • Os dados são observacionais: nenhum dos valores foi definido pelo experimentador. Ambos foram observados ou medidos.

  • O interesse reside em identificar, quantificar e testar algum tipo de relacionamento entre as variáveis.

A regressão é usada onde

  • Os dados são bivariados ou multivariados: pode haver mais de dois valores distintos de interesse.

  • O interesse se concentra em entender o que pode ser dito sobre um subconjunto de variáveis ​​- as variáveis ​​"dependentes" ou "respostas" - com base no que pode ser conhecido sobre o outro subconjunto - as variáveis ​​"independentes" ou "regressores".

  • Valores específicos dos regressores podem ter sido definidos pelo experimentador.

Esses objetivos e situações diferentes levam a abordagens distintas. Como esse segmento está preocupado com suas semelhanças, vamos nos concentrar no caso em que eles são mais semelhantes: dados bivariados. Em ambos os casos, esses dados serão tipicamente modelados como realizações de uma variável aleatória . Muito geralmente, ambas as formas de análise buscam caracterizações relativamente simples dessa variável.(X,Y)

Correlação

Eu acredito que "análise de correlação" nunca foi geralmente definida. Deveria limitar-se a calcular os coeficientes de correlação ou poderia ser considerado mais extensivamente como compreendendo PCA, análise de cluster e outras formas de análise que relacionam duas variáveis? Seja seu ponto de vista restrito ou amplo, talvez você concorde que a seguinte descrição se aplica:

Correlação é uma análise que faz suposições sobre a distribuição de , sem privilegiar qualquer variável, e usa os dados para tirar conclusões mais específicas sobre essa distribuição.(X,Y)

Por exemplo, você pode começar assumindo que tem uma distribuição normal bivariada e usar o coeficiente de correlação de Pearson dos dados para estimar um dos parâmetros dessa distribuição. Essa é uma das mais estreitas (e mais antigas) concepções de correlação.(X,Y)

Como outro exemplo, você pode estar assumindo que pode ter qualquer distribuição e usar uma análise de cluster para identificar k "centros". Pode-se interpretar isso como o início de uma resolução da distribuição de ( X , Y ) em uma mistura de distribuições bivariadas unimodais, uma para cada cluster.(X,Y)k(X,Y)

Uma coisa comum a todas essas abordagens é um tratamento simétrico de e Y : nenhuma é privilegiada em relação à outra. Ambos desempenham papéis equivalentes.XY

Regressão

Regressão goza de uma definição clara e universalmente entendida:

A regressão caracteriza a distribuição condicional de (a resposta) dada X (o regressor).YX

Historicamente, regressão traça as suas raízes a descoberta de Galton (c 1,885.) Que os dados normais bivariáveis desfrutar de uma linear de regressão: a esperança condicional de Y é uma função linear de X . Num extremo do espectro especial geral é de mínimos quadrados (OLS) regressão em que a distribuição condicional de Y é assumido como sendo normal ( β 0 + β 1 X , σ 2 ) para parâmetros fixos β 0 , β 1 , e σ(X,Y)YXY(β0+β1X,σ2)β0,β1,σ a ser estimado a partir dos dados.

No extremo extremamente geral desse espectro estão modelos lineares generalizados, modelos aditivos generalizados e outros de sua classe que relaxam todos os aspectos do OLS: a expectativa, a variação e até a forma da distribuição condicional de podem variar de maneira não linear. com X . O conceito de que sobrevive toda essa generalização é que os restos de juros focada na compreensão de como Y depende X . Essa assimetria fundamental ainda está lá.YXYX

Correlação e Regressão

Uma situação muito especial é comum a ambas as abordagens e é frequentemente encontrada: o modelo normal bivariado. Nesse modelo, um gráfico de dispersão assumirá uma forma clássica de "futebol", oval ou charuto: os dados são distribuídos elipticamente em torno de um par ortogonal de eixos.

  • Uma análise de correlação enfoca a "força" desse relacionamento, no sentido de que uma propagação relativamente pequena em torno do eixo principal é "forte".

  • YXXY

(Vale a pena ponderar as claras diferenças geométricas entre essas duas descrições: elas iluminam as diferenças estatísticas subjacentes.)

ρ

  1. XYX

  2. YXY

  3. (1)(2)

  4. (X,Y)

(4)XY

(1)(3)

H0:ρ=0YXrβ^

Esse aplicativo comum, que é o primeiro que alguém aprende, pode dificultar o reconhecimento da correlação e regressão diferentes em seus conceitos e objetivos. Somente quando aprendemos sobre suas generalizações é que as diferenças subjacentes são expostas. Seria difícil interpretar um GAM como fornecendo muitas informações sobre "correlação", assim como seria difícil enquadrar uma análise de cluster como uma forma de "regressão". Os dois são diferentes famílias de procedimentos com objetivos diferentes, cada um útil por si só quando aplicado adequadamente.


rβ^

whuber
fonte
r
1
r(X,Y)r
Vou deixar essa lata de minhocas por algum outro tempo :) :) Obrigado pelo seu comentário @whuber!
Stefan
3

Como a resposta do @ whuber sugere, existem vários modelos e técnicas que podem se enquadrar no campo de correlação que não possuem análogos claros no mundo da regressão e vice-versa. No entanto, em geral, quando as pessoas pensam, comparam e contrastam regressão e correlação, elas estão de fato considerando dois lados da mesma moeda matemática (geralmente uma regressão linear e uma correlação de Pearson). Se eles devem ter uma visão mais ampla de ambas as famílias de análises é um debate separado, e que os pesquisadores devem enfrentar pelo menos minimamente.

xy(x,y)

Nesta visão restrita da regressão e da correlação, as explicações a seguir devem ajudar a elucidar como e por que suas estimativas, erros padrão e valores de p são essencialmente variantes uma da outra.

Com o dataframe datsendo o longleyconjunto de dados mencionado acima, obtemos o seguinte para o cor.test. (Não há nada novo aqui, a menos que você tenha pulado a pergunta acima e tenha ido direto à leitura das respostas):

> cor.test(dat$Employed, dat$Population)

    Pearson's product-moment correlation

data:  dat$Employed and dat$Population
t = 12.896, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

E o seguinte para o modelo linear (também o mesmo que acima):

> summary(lm(Employed~Population, data=dat))

Call:
lm(formula = Employed ~ Population, data = dat)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Agora, para o novo componente para esta resposta. Primeiro, crie duas novas versões padronizadas das variáveis Employede Population:

> dat$zEmployed<-scale(dat$Employed)
> dat$zPopulation<-scale(dat$Population)

Segundo, execute novamente a regressão:

> summary(lm(zEmployed~zPopulation, data=dat))

Call:
lm(formula = zEmployed ~ zPopulation, data = dat)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.40894 -0.27733  0.05755  0.15748  0.54238 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.956e-15  7.211e-02     0.0        1    
zPopulation  9.604e-01  7.447e-02    12.9 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2884 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Voila! A inclinação da regressão é igual ao coeficiente de correlação de cima. A resposta à pergunta 1 é que as suposições para os dois testes são essencialmente as mesmas:

  1. Independência das observações
  2. xy
  3. eN(0 0,σe2)
  4. Os termos de erro são distribuídos de maneira semelhante em cada valor previsto da linha de regressão (isto é, homogeneidade da variação do erro)

xy

Para a pergunta 2 , vamos começar com o erro padrão da fórmula da inclinação de regressão usada acima (implícita no código R - mas declarado abaixo):

b=(XEu-X¯)(YEu-Y¯)(XEu-X¯)2

bVumar(b)XEu=(XEu-X¯)YEu=(YEu-Y¯)

Vumar(b)=Vumar((XEuYEu)(XEu2))

A partir dessa fórmula, você pode obter a seguinte expressão condensada e mais útil ( consulte este link passo a passo ):

Vumar(b)=σe2(XEu-X¯)2
SE(b)=Vumar(b)=σe2(XEu-X¯)2

σe2

Acho que você descobrirá que, se resolver esta equação para os modelos lineares não padronizados e padronizados (ou seja, correlação), obterá os mesmos valores de p e t para suas inclinações. Ambos os testes baseiam-se na estimativa de mínimos quadrados comuns e fazem as mesmas suposições. Na prática, muitos pesquisadores ignoram a verificação de suposições para modelos de correlação linear simples e correlações, embora eu ache ainda mais prevalente fazê-lo para correlações, pois muitas pessoas não as reconhecem como casos especiais de regressões lineares simples. (Nota: não é uma boa prática a adotar)

Matt Barstead
fonte
2
Esta resposta não trata da citação de @whuber reproduzida na pergunta, onde ele afirma que as suposições são diferentes. Você quer dizer que esta afirmação estava errada?
Ameba diz Reinstate Monica
Se você seguir essas equações, a correlação de Pearson tem as mesmas suposições básicas de uma regressão linear simples. Posso alterar minha resposta para declarar isso mais claramente.
Matt Barstead
1
Obrigado pela sua resposta! Eu estava ciente de que o coeficiente de correlação é igual à inclinação da regressão quando padronizado. Isso foi mostrado nos links 3 e 4 na minha pergunta. Eu também estava ciente das suposições gerais que você listou e é por isso que o comentário da @whuber me fez pensar, levando a essa pergunta. Eu deveria ter declarado explicitamente quais suposições tenho conhecimento - minhas desculpas.
Stefan
1
rrr <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956
0

Aqui está uma explicação da equivalência do teste, mostrando também como re eb estão relacionados.

http://www.real-statistics.com/regression/hypothesis-testing-significance-regression-line-slope/

Para executar o OLS, é necessário fazer https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions

Além disso, OLS e corr requerem a suposição de amostragem aleatória.

A construção de um teste corr pressupõe:

Temos uma "amostra aleatória e grande o suficiente" da população de (x, y).

ivankomarov
fonte
0

Em relação à questão 2

como calcular o mesmo valor t usando r em vez de β1

Eu não acho que é possível calcular o t estatística do r valor, no entanto, a mesma inferência estatística pode ser derivada da F estatística, onde a hipótese alternativa é que o modelo não explique os dados, e isso pode ser calculado a partir de r.

F=r2/k(1-r2)/(n-k)

Com k=2 parâmetros no modelo e n=dumatumapoEunts

Com a restrição de que

... a relação F não pode ser usada quando o modelo não possui interceptação

Fonte: Teste de hipóteses no modelo de regressão múltipla

Harry Salmon
fonte
1
Olhei para a postagem original para identificar a qual pergunta você pode estar respondendo. Encontrei dois, numerados 1 (sobre suposições) e 2 (sobre o cálculo de um valor t), mas nenhum deles parece ser tratado por esta resposta. Você poderia nos dizer mais explicitamente que pergunta está respondendo?
whuber
1
Obrigado pelo esclarecimento: a conexão com a pergunta agora é aparente. Eu interpreto a questão de maneira diferente, no entanto. Por isso, pergunto como o valor p para a análise de correlação (ou seja, com base no coeficiente de correlação da amostrare o modelo que ele implica) é calculado (e implicitamente mostra explicitamente por que ele deve produzir o mesmo valor para a análise de regressão). Sua resposta, embora correta, também se baseia na regressão, por isso ainda nos deixa pensando.
whuber
1
Acho que entendi, talvez eu estivesse respondendo à pergunta no caso específico, e não no geral. Eu acho que seria útil poder expor a questão em termos de uma hipótese nula e alternativa geral para poder considerar esse caso geral, pois estou lutando para isso.
Harry Salmon
Concordo: exibir modelos claros e critérios de decisão para as análises de correlação e regressão seria de grande ajuda para distingui-los. Às vezes, uma boa resposta consiste em pouco mais do que reformular ou esclarecer a pergunta, e muitas vezes as melhores respostas começam com reformulações efetivas da pergunta; portanto, não tenha medo de seguir nessa direção.
whuber