Qual é a diferença entre correlação e regressão linear simples?

Respostas:

114

Qual é a diferença entre a correlação entre e e uma regressão linear que prevê de ?Y Y XXYYX

Primeiro, algumas semelhanças :

  • o coeficiente de regressão padronizado é o mesmo que o coeficiente de correlação de Pearson
  • O quadrado do coeficiente de correlação de Pearson é igual ao na regressão linear simplesR2
  • Nem a regressão linear simples nem a correlação respondem diretamente a questões de causalidade. Este ponto é importante, porque eu já conheci pessoas que pensam que a regressão simples pode magicamente permitem inferir que causa .YXY

Segundo, algumas diferenças :

  • A equação de regressão (ou seja, ) pode ser usada para fazer previsões em base nos valores deY Xa+bXYX
  • Embora a correlação normalmente se refira ao relacionamento linear, pode se referir a outras formas de dependência, como polinômios ou relacionamentos verdadeiramente não lineares
  • Embora a correlação normalmente se refira ao coeficiente de correlação de Pearson, existem outros tipos de correlação, como a de Spearman.
Jeromy Anglim
fonte
Olá Jeromy, obrigado pela sua explicação, mas ainda tenho uma pergunta aqui: E se eu não precisar fazer previsões e apenas quiser saber o quão próximas duas variáveis ​​estão e em que direção / força? Ainda existe algo diferente usando essas duas técnicas?
yue86231
3
@ yue86231 Então parece que uma medida de correlação seria mais apropriada.
Jeromy Anglim
5
(+1) Para as semelhanças, pode ser útil adicionar os testes padrão da hipótese "correlação = 0" ou, equivalentemente, "inclinação = 0" (para a regressão em qualquer ordem), como realizados por lme cor.testem R, produzirá valores p idênticos.
whuber
3
Concordo que a sugestão do @whuber deve ser adicionada, mas em um nível muito básico, acho que vale a pena ressaltar que o sinal da inclinação da regressão e o coeficiente de correlação são iguais. Essa é provavelmente uma das primeiras coisas que a maioria das pessoas aprende sobre a relação entre correlação e uma "linha de melhor ajuste" (mesmo que ainda não a chamem de "regressão"), mas acho que vale a pena notar. Para as diferenças, o fato de você obter a mesma correlação de resposta X com Y ou vice-versa, mas que a regressão de Y em X é diferente da de X em Y também pode merecer uma menção.
Silverfish 27/07
36

Aqui está uma resposta que eu publiquei no site graphpad.com :

Correlação e regressão linear não são as mesmas. Considere estas diferenças:

  • A correlação quantifica o grau em que duas variáveis ​​estão relacionadas. A correlação não se ajusta a uma linha através dos dados.
  • Com a correlação, você não precisa pensar em causa e efeito. Você simplesmente quantifica quão bem duas variáveis ​​se relacionam entre si. Com a regressão, você precisa pensar em causa e efeito, pois a linha de regressão é determinada como a melhor maneira de prever Y a partir de X.
  • Com a correlação, não importa qual das duas variáveis ​​você chama "X" e qual chama "Y". Você obterá o mesmo coeficiente de correlação se trocar os dois. Com a regressão linear, a decisão sobre qual variável você chama "X" e qual você chama "Y" importa muito, pois você obterá uma linha de melhor ajuste diferente se trocar as duas. A linha que melhor prevê Y de X não é a mesma que prevê X de Y (a menos que você tenha dados perfeitos sem dispersão.)
  • A correlação é quase sempre usada quando você mede as duas variáveis. Raramente é apropriado quando uma variável é algo que você manipula experimentalmente. Com a regressão linear, a variável X geralmente é algo que você manipula experimentalmente (tempo, concentração ...) e a variável Y é algo que você mede.
Harvey Motulsky
fonte
13
"a melhor maneira de prever Y a partir de X" não tem nada a ver com causa e efeito: X pode ser a causa de Y ou vice-versa. Pode-se raciocinar de causas a efeitos (dedução) ou de efeitos a causas (abdução).
Neil G
4
"você terá uma linha de melhor ajuste diferente se trocar as duas" é um pouco enganador; as inclinações padronizadas serão as mesmas nos dois casos.
Xenocyon #
26

No caso de preditor único de regressão linear, a inclinação padronizada tem o mesmo valor que o coeficiente de correlação. A vantagem da regressão linear é que o relacionamento pode ser descrito de forma que você possa prever (com base no relacionamento entre as duas variáveis) a pontuação na variável prevista, dado qualquer valor específico da variável preditora. Em particular, uma peça de informação que uma regressão linear fornece a você que uma correlação não é a interceptação, o valor na variável prevista quando o preditor é 0.

Em resumo - eles produzem resultados idênticos computacionalmente, mas há mais elementos capazes de interpretar na regressão linear simples. Se você estiver interessado em simplesmente caracterizar a magnitude do relacionamento entre duas variáveis, use a correlação - se você estiver interessado em prever ou explicar seus resultados em termos de valores específicos, provavelmente deseja uma regressão.

russellpierce
fonte
"Em particular uma informação, uma regressão linear dá a você que uma correlação não é a interceptação" ... Muita diferença!
21816 SIslam #
Bem, olhando para trás, é verdade que a regressão fornece uma interceptação, porque é o padrão para muitos pacotes de estatísticas fazerem isso. Pode-se calcular facilmente uma regressão sem interceptar.
22816 russellpierce
Sim, pode-se facilmente calcular uma regressão sem uma interceptação mas raramente seria significativo: stats.stackexchange.com/questions/102709/...
Kjetil b Halvorsen
@kjetilbhalvorsen Exceto como no caso que descrevi quando você está ajustando uma inclinação padronizada. O termo de interceptação em uma equação de regressão padronizada é sempre 0. Por que? Como o IV e os DVs foram padronizados para pontuações unitárias - como resultado, a interceptação é definitivamente 0. (o equivalente a padronizar o IV e o DV). Quando ambos IV e DV foram padronizadas a 0, a interceptação é por definição 0.
russellpierce
11

A análise de correlação quantifica apenas a relação entre duas variáveis, ignorando qual é variável dependente e qual é independente. Porém, antes de aplicar a regressão, é necessário calibrar o impacto de qual variável você deseja verificar na outra variável.


fonte
9

Todas as respostas fornecidas até o momento fornecem informações importantes, mas não se deve esquecer que você pode transformar os parâmetros de um em outro:

y=mx+b

m=Cov(y,x)Var(x)=Cor(y,x)Sd(y)Sd(x)
b=y¯mx¯

Assim, você pode transformar os dois escalando e alterando seus parâmetros.

Um exemplo em R:

y <- c(4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c(4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      6.5992      -0.3362
(m <- cov(y, x) / var(x)) # slope of regression
## [1] -0.3362361
cor(y, x) * sd(y) / sd(x) # the same with correlation
## [1] -0.3362361
mean(y) - m*mean(x)       # intercept
## [1] 6.599196
vonjd
fonte
3

Pela correlação, podemos obter apenas um índice descrevendo a relação linear entre duas variáveis; em regressão, podemos prever o relacionamento entre mais de duas variáveis ​​e usá-lo para identificar quais variáveis x podem prever a variável de resultado y .

radia
fonte
3

Citando Altman DG, "Estatísticas práticas para pesquisa médica" Chapman & Hall, 1991, página 321: "A correlação reduz um conjunto de dados para um único número que não tem relação direta com os dados reais. A regressão é um método muito mais útil, com resultados claramente relacionados à medida obtida. A força da relação é explícita e a incerteza pode ser vista claramente em intervalos de confiança ou intervalos de previsão "

Carlo Lazzaro
fonte
3
Embora eu seja solidário com Altman - os métodos de regressão costumam ser mais adequados do que a correlação em muitos casos - essa citação está estabelecendo um argumento comum. Na regressão OLS, as informações produzidas são equivalentes às fornecidas pelas informações que entram em um cálculo de correlação (todos os primeiro e segundo momentos bivariados e seus erros padrão) e o coeficiente de correlação fornece as mesmas informações que a inclinação da regressão. As duas abordagens diferem um pouco nos modelos de dados subjacentes que assumem e em sua interpretação, mas não nas formas reivindicadas por Altman.
whuber
1

A análise de regressão é uma técnica para estudar a causa do efeito de uma relação entre duas variáveis. enquanto que, a análise de correlação é uma técnica para estudar a quantificação da relação entre duas variáveis.

Kanon Das Zinku
fonte
6
Bem-vindo ao CV! Dado que já existem muitas respostas para essa pergunta, você quer dar uma olhada nelas e ver se a sua acrescenta algo novo? Se você tem mais a dizer, pode editá-lo.
Scortchi
0

Correlação é um índice (apenas um número) da força de um relacionamento. Regressão é uma análise (estimativa de parâmetros de um modelo e teste estatístico de sua significância) da adequação de uma relação funcional específica. O tamanho da correlação está relacionado à precisão das previsões da regressão.

Jdub
fonte
1
Não, não é. A correlação nos dá um relacionamento limitado, mas não se relaciona com a precisão das previsões. R2 dá isso.
SmallChess
-3

Correlação é um termo em uma estatística que determina se existe uma relação entre dois e o grau de relacionamento. Seu intervalo é de -1 a +1. Enquanto regressão significa voltar à média. A partir da regressão, prevemos o valor mantendo uma variável dependente e outra independente, mas deve ser esclarecido o valor de qual variável queremos predizer.

shakir sabir
fonte
6
Olá, @shakir, e bem-vindo ao Cross Validated! Você provavelmente percebeu que esta é uma pergunta antiga (a partir de 2010) e já existem sete (!) Respostas. Seria uma boa idéia garantir que sua nova resposta acrescente algo importante à discussão que não foi abordada antes. No momento não tenho certeza de que é o caso.
Ameba