É possível para

No OLS, é possível que o de uma regressão em duas variáveis seja maior que a soma de para duas regressões nas variáveis individuais. $R^2$ $R^2$

$R^2(Y \sim A + B) > R^2(Y \sim A) + R^2(Y \sim B)$

Edit: Ugh, isso é trivial; é isso que eu ganho por tentar resolver problemas que pensei enquanto estava na academia. Desculpe por perder tempo novamente. A resposta é claramente sim.

$Y \sim N(0,1)$

$A \sim N(0,1)$

$B = Y - A$

$R^2(Y \sim A + B) = 1$ , claramente. Mas deve ser 0 no limite e deve ser 0,5 no limite. $R^2(Y \sim A)$ $R^2 (Y \sim B)$

regression least-squares bsdfish
fonte

Você está perguntando sobre a desigualdade na equação de exibição (envolvendo a soma residual dos quadrados ) ou está perguntando sobre uma desigualdade envolvendo a sentença que precede essa equação, ou seja, envolvendo

R^{2}

$R^2$ , o coeficiente de determinação?

cardeal

Eu estava interessado em

R^{2}

$R^2$ ; editado para corrigir o problema.

bsdfish

Boa . Também existem boas explicações geométricas.

cardeal

Você pode editar sua resposta e colocá-la como uma resposta real, para que a pergunta não permaneça "sem resposta".

Karl

Alguma chance de termos uma resposta intuitiva para isso? E se

R^{2}

$R^2$ é explicado o percentual de variação, então como explicar mais da variação com o modelo completo do que com um modelo dedicado para cada variável?

Kr6

Respostas:

Aqui está um pouco de R que define uma semente aleatória que resultará em um conjunto de dados que o mostra em ação.

set.seed(103)

d <- data.frame(y=rnorm(20, 0, 1),
                a=rnorm(20, 0, 1),
                b=rnorm(20, 0, 1))

m1 <- lm(y~a, data=d)
m2 <- lm(y~b, data=d)
m3 <- lm(y~a+b, data=d)

r2.a <- summary(m1)[["r.squared"]]
r2.b <- summary(m2)[["r.squared"]]
r2.sum <- summary(m3)[["r.squared"]]

r2.sum > r2.a + r2.b

Não é apenas possível (como você já mostrou analiticamente) que não é difícil de fazer. Dadas três variáveis normalmente distribuídas, parece ocorrer cerca de 40% das vezes.

Benjamin Mako Hill
fonte

Uau. Você MIT caras devem ter mais tempo do que comumente assumido ;-)

xmjx

Eu estava preso em um longo dia de reuniões. :)

Benjamin Mako Hill

-1

Não é possível Além disso, se A e B estão correlacionados (se seus r é diferente de zero), o rsq da regressão em ambos será menor que a soma dos rsq de suas regressões individuais.

Observe que, mesmo que A e B sejam completamente não correlacionados, os rsqs ajustados (que penalizam por uma taxa baixa de caso para preditor) podem ser ligeiramente diferentes entre as duas soluções.

Talvez você queira compartilhar mais sobre as evidências empíricas que o levaram a um ponto de interrogação.

rolando2
fonte

Você pode repensar isso. Ou tente uma simulação. :)

cardeal

Observe que é exatamente quando

A

$A$ e

B

$B$ são altamente correlacionadas que se faz ver a desigualdade declarado na pergunta. :)

cardeal

Considere o seguinte cenário extremo, no qual usarei o método mais convencional

X_{1}

$X_1$ e

X_{2}

$X_2$ ao invés de

A

$A$ e

B

$B$ . Faça uma distribuição normal bivariada (latente). Deixei

Y

$Y$ seja a projeção do bivariado normal no vetor próprio com maior valor próprio. Deixei

X_{1}

$X_1$ seja a projeção no vetor próprio do menor valor próprio. Para qualquer

0 < ρ < 1

$0 < \rho < 1$ , deixei

X_{2} = ρ Y + \sqrt{1 - ρ^{2}} X

$X_2 = \rho Y + \sqrt{1-\rho^2} X$ . Então o

R^{2}

$R^2$ para

X_{1}

$X_1$ é zero e o

R^{2}

$R^2$ para

X_{2}

$X_2$ pode ser arbitrariamente pequeno. Mas o

R^{2}

$R^2$ do

X_{1} + X_{2}

$X_1+X_2$ é sempre 1 (por quê?). Talvez você possa editar sua postagem.

cardeal

...e por

X_{1} + X_{2}

$X_1 + X_2$ Quero dizer o modelo que incorpora os dois preditores, não a soma real. Uma notação melhor seria provavelmente através da soma direta

X_{1} \oplus X_{2}

$X_1 \oplus X_2$ .

cardeal