relação entre de regressão simples e regressão múltipla

10

Uma questão muito básica relativa aos das regressões OLSR2

  1. executar a regressão OLS y ~ x1, temos um , digamos 0,3R2
  2. executar a regressão OLS y ~ x2, temos outro , digamos 0,4R2
  3. agora executamos uma regressão y ~ x1 + x2, que valor pode ser o R ​​ao quadrado dessa regressão?

Eu acho que está claro que o para a regressão múltipla não deve ser menor que 0,4, mas é possível que seja maior que 0,7?R2

Olivier Ma
fonte
2
Dica: pode chegar a 1,0. Por quê? (Pense geometricamente. Ou, ainda mais especificamente, sobre o círculo unitário.)
cardeal

Respostas:

4

O segundo regressor pode simplesmente compensar o que o primeiro não conseguiu explicar na variável dependente. Aqui está um exemplo numérico:

Gere x1como um regressor normal padrão, tamanho 20 da amostra. Sem perda de generalidade, pegue , onde é . Agora, considere o segundo regressor simplesmente como a diferença entre a variável dependente e o primeiro regressor.u i N ( 0 , 1 )yi=0.5x1i+uiuiN(0,1)x2

n <- 20 
x1 <- rnorm(n)

y <- .5*x1 + rnorm(n)

x2 <- y - x1
summary(lm(y~x1))$r.squared
summary(lm(y~x2))$r.squared
summary(lm(y~x1+x2))$r.squared
Christoph Hanck
fonte
obrigado! Eu tinha um entendimento errado de r ao quadrado. Pensei que, se x1 + x2 = y, em seguida, summary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squareddeve não inferior a 1. Ser mas claramente eu estou errado ..
Olivier Ma
3

Além do limite inferior, que é 0,3 ou 0,4, dependendo de qual variável entra no modelo primeiro, não há muito o que dizer. Quanto aumenta depende em grande parte das informações que a segunda variável traz para o modelo. Por informação, entendemos, é claro, a variação explicada na resposta.R2

Há um conceito que é crítico a esse respeito e que é a correlação entre os preditores. Se a correlação for grande, a nova variável não só trará nada ao modelo, como também complicará a inferência para as variáveis ​​existentes, pois as estimativas se tornarão imprecisas (multicolinearidade). Essa é a razão pela qual preferimos idealmente que a nova variável seja ortogonal às outras. As chances são pequenas de que isso ocorra em estudos observacionais, mas isso pode ser realizado em ambientes controlados, por exemplo, quando você está construindo seu próprio experimento.

Mas como você quantifica com precisão as novas informações que uma variável trará para o modelo? Uma medida amplamente usada que leva tudo isso em consideração é o parcial R2 . Se você estiver familiarizado com a ANOVA do modelo linear, isso não passa de uma diminuição proporcional na soma dos quadrados dos erros que você realizará incluindo essa variável em seu modelo. Porcentagens altas são desejáveis, enquanto as baixas provavelmente farão você pensar se esse é o curso de ação certo.

Portanto, como @cardinal apontou nos comentários, seu novo coeficiente de determinação pode ser tão alto quanto 1. Ele também pode ser tão baixo quanto 0,400001. Não há como contar sem informações adicionais.

JohnK
fonte
@JohnK, você se importaria de explicar melhor por que ele precisa ser estritamente maior que 0,4? A interpretação geométrica da regressão ajudaria aqui?
Dnaiel
@Dnaiel O coeficiente de determinação não diminui em relação ao número de variáveis ​​no modelo.
JohnK
3

Coeficiente de determinação na regressão linear múltipla: Na regressão linear múltipla, o coeficiente de determinação pode ser escrito em termos das correlações pareadas para as variáveis ​​usando a forma quadrática:

R2=ry,xTrx,x1ry,x,

onde é o vetor de correlações entre o vetor de resposta e cada um dos vetores explicativos e é a matriz de correlações entre os vetores explicativos (para mais informações, consulte esta pergunta relacionada ). No caso de uma regressão bivariada, você tem:ry,xrx,x

R2=[rY,X1rY,X2]T[1rX1,X2rX1,X21]1[rY,X1rY,X2]=11rX1,X22[rY,X1rY,X2]T[1rX1,X2rX1,X21][rY,X1rY,X2]=11rX1,X22(rY,X12+rY,X222rX1,X2rY,X1rY,X2).

Você não especificou as direções das correlações univariadas em sua pergunta; portanto, sem perda de generalidade, indicaremos . Substituindo os valores de e rendimento:Dsgn(rY,X1)sgn(rY,X2){1,+1}rY,X12=0.3rY,X22=0.4

R2=0.720.12DrX1,X21rX1,X22.

É possível que , pois é possível que as informações combinadas das duas variáveis ​​sejam maiores que a soma de suas partes. Esse fenômeno interessante é chamado de 'aprimoramento' (ver, por exemplo, Lewis e Escobar 1986 ).R2>0.7

Ben - Restabelecer Monica
fonte