É possível para

8

No OLS, é possível que o de uma regressão em duas variáveis ​​seja maior que a soma de para duas regressões nas variáveis ​​individuais.R2R2

R2(YUMA+B)>R2(YUMA)+R2(YB)

Edit: Ugh, isso é trivial; é isso que eu ganho por tentar resolver problemas que pensei enquanto estava na academia. Desculpe por perder tempo novamente. A resposta é claramente sim.

YN(0 0,1)

UMAN(0 0,1)

B=Y-UMA

R2(YA+B)=1 , claramente. Mas deve ser 0 no limite e deve ser 0,5 no limite. R2(YA)R2(YB)

bsdfish
fonte
Você está perguntando sobre a desigualdade na equação de exibição (envolvendo a soma residual dos quadrados ) ou está perguntando sobre uma desigualdade envolvendo a sentença que precede essa equação, ou seja, envolvendoR2, o coeficiente de determinação?
cardeal
Eu estava interessado em R2; editado para corrigir o problema.
bsdfish
Boa . Também existem boas explicações geométricas.
cardeal
3
Você pode editar sua resposta e colocá-la como uma resposta real, para que a pergunta não permaneça "sem resposta".
Karl
Alguma chance de termos uma resposta intuitiva para isso? E seR2é explicado o percentual de variação, então como explicar mais da variação com o modelo completo do que com um modelo dedicado para cada variável?
Kr6

Respostas:

4

Aqui está um pouco de R que define uma semente aleatória que resultará em um conjunto de dados que o mostra em ação.

set.seed(103)

d <- data.frame(y=rnorm(20, 0, 1),
                a=rnorm(20, 0, 1),
                b=rnorm(20, 0, 1))

m1 <- lm(y~a, data=d)
m2 <- lm(y~b, data=d)
m3 <- lm(y~a+b, data=d)

r2.a <- summary(m1)[["r.squared"]]
r2.b <- summary(m2)[["r.squared"]]
r2.sum <- summary(m3)[["r.squared"]]

r2.sum > r2.a + r2.b

Não é apenas possível (como você já mostrou analiticamente) que não é difícil de fazer. Dadas três variáveis ​​normalmente distribuídas, parece ocorrer cerca de 40% das vezes.

Benjamin Mako Hill
fonte
Uau. Você MIT caras devem ter mais tempo do que comumente assumido ;-)
xmjx
Eu estava preso em um longo dia de reuniões. :)
Benjamin Mako Hill
-1

Não é possível Além disso, se A e B estão correlacionados (se seus r é diferente de zero), o rsq da regressão em ambos será menor que a soma dos rsq de suas regressões individuais.

Observe que, mesmo que A e B sejam completamente não correlacionados, os rsqs ajustados (que penalizam por uma taxa baixa de caso para preditor) podem ser ligeiramente diferentes entre as duas soluções.

Talvez você queira compartilhar mais sobre as evidências empíricas que o levaram a um ponto de interrogação.

rolando2
fonte
Você pode repensar isso. Ou tente uma simulação. :)
cardeal
Observe que é exatamente quando UMA e B são altamente correlacionadas que se faz ver a desigualdade declarado na pergunta. :)
cardeal
Considere o seguinte cenário extremo, no qual usarei o método mais convencional X1 e X2 ao invés de UMA e B. Faça uma distribuição normal bivariada (latente). DeixeiYseja a projeção do bivariado normal no vetor próprio com maior valor próprio. DeixeiX1seja a projeção no vetor próprio do menor valor próprio. Para qualquer0 0<ρ<1, deixei X2=ρY+1-ρ2X. Então oR2 para X1 é zero e o R2 para X2pode ser arbitrariamente pequeno. Mas oR2 do X1+X2é sempre 1 (por quê?). Talvez você possa editar sua postagem.
cardeal
...e por X1+X2Quero dizer o modelo que incorpora os dois preditores, não a soma real. Uma notação melhor seria provavelmente através da soma diretaX1X2.
cardeal