Uma questão muito básica relativa aos das regressões OLS
- executar a regressão OLS y ~ x1, temos um , digamos 0,3
- executar a regressão OLS y ~ x2, temos outro , digamos 0,4
- agora executamos uma regressão y ~ x1 + x2, que valor pode ser o R ao quadrado dessa regressão?
Eu acho que está claro que o para a regressão múltipla não deve ser menor que 0,4, mas é possível que seja maior que 0,7?
regression
multiple-regression
least-squares
r-squared
Olivier Ma
fonte
fonte
Respostas:
O segundo regressor pode simplesmente compensar o que o primeiro não conseguiu explicar na variável dependente. Aqui está um exemplo numérico:
Gereyi=0.5x1i+ui ui N(0,1)
x1
como um regressor normal padrão, tamanho 20 da amostra. Sem perda de generalidade, pegue , onde é . Agora, considere o segundo regressor simplesmente como a diferença entre a variável dependente e o primeiro regressor.u i N ( 0 , 1 )x2
fonte
x1 + x2 = y
, em seguida,summary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squared
deve não inferior a 1. Ser mas claramente eu estou errado ..Além do limite inferior, que é 0,3 ou 0,4, dependendo de qual variável entra no modelo primeiro, não há muito o que dizer. Quanto aumenta depende em grande parte das informações que a segunda variável traz para o modelo. Por informação, entendemos, é claro, a variação explicada na resposta.R2
Há um conceito que é crítico a esse respeito e que é a correlação entre os preditores. Se a correlação for grande, a nova variável não só trará nada ao modelo, como também complicará a inferência para as variáveis existentes, pois as estimativas se tornarão imprecisas (multicolinearidade). Essa é a razão pela qual preferimos idealmente que a nova variável seja ortogonal às outras. As chances são pequenas de que isso ocorra em estudos observacionais, mas isso pode ser realizado em ambientes controlados, por exemplo, quando você está construindo seu próprio experimento.
Mas como você quantifica com precisão as novas informações que uma variável trará para o modelo? Uma medida amplamente usada que leva tudo isso em consideração é o parcialR2 . Se você estiver familiarizado com a ANOVA do modelo linear, isso não passa de uma diminuição proporcional na soma dos quadrados dos erros que você realizará incluindo essa variável em seu modelo. Porcentagens altas são desejáveis, enquanto as baixas provavelmente farão você pensar se esse é o curso de ação certo.
Portanto, como @cardinal apontou nos comentários, seu novo coeficiente de determinação pode ser tão alto quanto 1. Ele também pode ser tão baixo quanto 0,400001. Não há como contar sem informações adicionais.
fonte
Coeficiente de determinação na regressão linear múltipla: Na regressão linear múltipla, o coeficiente de determinação pode ser escrito em termos das correlações pareadas para as variáveis usando a forma quadrática:
onde é o vetor de correlações entre o vetor de resposta e cada um dos vetores explicativos e é a matriz de correlações entre os vetores explicativos (para mais informações, consulte esta pergunta relacionada ). No caso de uma regressão bivariada, você tem:ry,x rx,x
Você não especificou as direções das correlações univariadas em sua pergunta; portanto, sem perda de generalidade, indicaremos . Substituindo os valores de e rendimento:D≡sgn(rY,X1)⋅sgn(rY,X2)∈{−1,+1} r2Y,X1=0.3 r2Y,X2=0.4
É possível que , pois é possível que as informações combinadas das duas variáveis sejam maiores que a soma de suas partes. Esse fenômeno interessante é chamado de 'aprimoramento' (ver, por exemplo, Lewis e Escobar 1986 ).R2>0.7
fonte