Regressão múltipla ou coeficiente de correlação parcial? E as relações entre os dois

35

Eu nem sei se essa pergunta faz sentido, mas qual é a diferença entre regressão múltipla e correlação parcial (além das diferenças óbvias entre correlação e regressão, que não é o que eu pretendo)?

Quero descobrir o seguinte:
Eu tenho duas variáveis ​​independentes ( x1 , x2 ) e uma variável dependente ( y ). Agora, individualmente, as variáveis ​​independentes não estão correlacionadas com a variável dependente. Mas, para um dado diminui quando diminui. Então, analiso isso por meio de regressão múltipla ou correlação parcial ?x1 yx2

edite para melhorar minha pergunta: estou tentando entender a diferença entre regressão múltipla e correlação parcial. Então, quando diminui para um determinado quando diminui, isso é devido ao efeito combinado de e em (regressão múltipla) ou é devido à remoção do efeito de (correlação parcial)?x 1 x 2 x 1 x 2 y x 1yx1x2x1x2yx1

user34927
fonte
3
Qual é a pergunta substantiva que você está tentando responder?
gung - Restabelece Monica
Consulte também a pergunta muito semelhante stats.stackexchange.com/q/50156/3277 .
ttnphns

Respostas:

32

Coeficiente de regressão linear múltipla e correlação parcial estão diretamente ligados e têm a mesma significância (valor-p). R parcial é apenas outra maneira de padronizar o coeficiente, juntamente com o coeficiente beta (coeficiente de regressão padronizado) 1 . Portanto, se a variável dependente é y e os independentes são x 1 e x 2, então1yx1x2

Beta:βx1=ryx1ryx2rx1x21rx1x22

Partial r:ryx1.x2=ryx1ryx2rx1x2(1ryx22)(1rx1x22)

Você vê que os numeradores são os mesmos, informando que ambas as fórmulas medem o mesmo efeito exclusivo de . Vou tentar explicar como as duas fórmulas são estruturalmente idênticas e como não são.x1

Suponha que você padronizou z (média 0, variação 1) todas as três variáveis. O numerador é então igual à covariância entre dois tipos de resíduos : os (a) resíduos deixados na previsão de por x 2 [ambas as variáveis ​​padrão] e os (b) resíduos deixados na previsão de x 1 por x 2 [ambas as variáveis ​​padrão] . Além disso, a variação dos resíduos (a) é 1 - r 2 y x 2 ; a variação dos resíduos (b) é 1 - r 2 x 1 x 2 .yx2x1x21ryx221rx1x22

A fórmula para a correlação parcial aparece então claramente a fórmula do plano simples de Pearson , conforme calculado neste caso entre os resíduos (a) e os resíduos (b): Pearson r , sabemos, é covariância dividida pelo denominador que é a média geométrica de duas variações diferentes.rr

O coeficiente beta padronizado é estruturalmente semelhante a Pearson , apenas que o denominador é a média geométrica de uma variação do próprio eu . A variância dos resíduos (a) não foi contada; foi substituído pela segunda contagem da variância de resíduos (b). Beta é, portanto, a covariância dos dois resíduos em relação à variância de um deles (especificamente, o referente ao preditor de interesse, x 1 ). Embora a correlação parcial, como já observado, seja a mesma covariância em relação à sua variação híbrida . Ambos os tipos de coeficiente são maneiras de padronizar o efeito de x 1 no meio de outros preditores.rx1x1

Algumas consequências numéricas da diferença. Se o quadrado R da regressão múltipla de por x 1 e x 2 for 1, as duas correlações parciais dos preditores com o dependente também terão 1 valor absoluto (mas os betas geralmente não serão 1). De fato, como dito anteriormente, r y x 1 . x 2 é a correlação entre os resíduos de e os resíduos de . Se o que não é x 2 dentro de y é exatamente o que não é x 2 dentro de x 1yx1x2ryx1.x2y <- x2x1 <- x2x2y x2x1então não há nada em que não seja x 1 nem x 2 : ajuste completo. Qualquer que seja a quantidade da porção inexplicável (em x 2 ) deixada em y (o 1 - r 2 y x 2 ), se for capturada relativamente alta pela parte independente de x 1 (pelo 1 - r 2 x 1 x 2 ), o r y x 1 . x 2 será alto. β x 1yx1x2x2y1ryx22x11rx1x22ryx1.x2βx1, por outro lado, será alto apenas desde que a porção inexplicada capturada de seja ela própria uma porção substancial de y .yy


Das fórmulas acima, obtém-se (e que se estende a partir de regressão 2-preditor para uma regressão com o número arbitrário de preditores ) A fórmula de conversão entre beta e R correspondente parcial:x1,x2,x3,...

ryx1.X=βx1var(ex1X)var(eyX),

where X stands for the collection of all predictors except the current (x1); eyX are the residuals from regressing y by X, and ex1X are the residuals from regressing x1 by X, the variables in both these regressions enter them standardized.

Note: if we need to to compute partial correlations of y with every predictor x we usually won't use this formula requiring to do two additional regressions. Rather, the sweep operations (often used in stepwise and all subsets regression algorithms) will be done or anti-image correlation matrix will be computed.


1 βx1=bx1σx1σy is the relation between the raw b and the standardized β coefficients in regression with intercept.

ttnphns
fonte
Thank you. But how do I decide which one to go with, e.g. for the purpose described in my question?
user34927
2
Obviously, you are free to choose: the numerators are the same, so they convey the same information. As for your (not fully clarified) question, it seems to be about topics "can regr. coef. be 0 when r isn't 0"; "can regr. coef. be not 0 when r is 0". There's a lot questions about that on the site. Just for example, you might read stats.stackexchange.com/q/14234/3277; stats.stackexchange.com/q/44279/3277.
ttnphns
I tried to clarify my question..
user34927
Fixing X1 ("x1 given") = removing (controlling) the effect of X1. There is no such thing as "combined effect" in multiple regression (unless you add the interaction X1*X2). Effects in multuple regression are competitive. Linear regression effects are actually partial correlations.
ttnphns
1
Wait a bit, @user34927. to prove that the DV (Y) is significantly correlated with one of two IVs (X1) if the effect of the other IV (X2) is removed The effect removed from where? If you "remove" X2 from both Y and X1 then the corr. between Y and X1 is the partial correlation. If you "remove" X2 from X1 only then the corr. between Y and X1 is called the part (or semi-partial) correlation. Were you really asking about it?
ttnphns
0

Just bumped to this tread by chance. In the original answer, in the formula for βx1 the factor SSY/SSX1 is missing, that is

βx1=ryx1ryx2 rx1x21rx1x22×SSYSSX1,
where SSY=i(yiy¯)2 and SSX1=i(x1ix¯1)2.
Brani
fonte
You are giving the formula of b. My answer was about β.
ttnphns