Como é possível obter um bom modelo de regressão linear quando não há correlação substancial entre o produto e os preditores?

17

Treinei um modelo de regressão linear, usando um conjunto de variáveis ​​/ recursos. E o modelo tem um bom desempenho. No entanto, percebi que não há variável com uma boa correlação com a variável prevista. Como isso é possível?

Zaratruta
fonte
3
Essas são ótimas respostas, mas a pergunta está faltando muitos detalhes que as respostas estão se esforçando para preencher. A maior pergunta em minha mente é o que você quer dizer com "boa correlação".
DHW

Respostas:

35

Um par de variáveis ​​pode mostrar alta correlação parcial (a correlação responsável pelo impacto de outras variáveis), mas baixa ou mesmo zero - correlação marginal (correlação pareada).

O que significa que a correlação pareada entre uma resposta, y e algum preditor, x pode ter pouco valor na identificação de variáveis ​​adequadas com valor "preditivo" (linear) entre uma coleção de outras variáveis.

Considere os seguintes dados:

   y  x
1  6  6
2 12 12
3 18 18
4 24 24
5  1 42
6  7 48
7 13 54
8 19 60

A correlação entre y e x é . Se eu chamar a linha dos mínimos quadrados, é perfeitamente horizontal e R 2 é, naturalmente, vai ser 0 .0R20

Mas quando você adiciona uma nova variável g, que indica de qual dos dois grupos as observações vieram, x se torna extremamente informativo:

   y  x g
1  6  6 0
2 12 12 0
3 18 18 0
4 24 24 0
5  1 42 1
6  7 48 1
7 13 54 1
8 19 60 1

O de um modelo de regressão linear com ambos o x e g variáveis em que vai ser um.R2

Plot of y vs x showing a lack of pairwise linear relationship but with color indicating the group; within each group the relationship is perfect

É possível que esse tipo de coisa aconteça com todas as variáveis ​​do modelo - que todas tenham uma pequena correlação pareada com a resposta, mas o modelo com todas elas é muito bom em prever a resposta.

Leitura adicional:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox

Glen_b -Reinstate Monica
fonte
R2gR2g
y=x41g
Esse foi realmente o modelo pelo qual a resposta foi criada; mas você pode ver imediatamente que é linear simplesmente imaginando levantar os pontos azuis em uma unidade arbitrária (em sua direção a partir da superfície da tela, ao longo de uma nova direção do eixo "g") e vendo um plano se encaixar nos seis pontos.
Glen_b -Reinstala Monica
1
Na regressão, as variáveis ​​X são condicionadas e geralmente podem ser controladas; portanto, "independência" não é geralmente o que se procura. Fora de experimentos projetados, preditores independentes quase nunca são vistos em nenhum caso, e se você os projetou, os preditores não são variáveis ​​aleatórias, de modo que "independência" (no sentido estatístico) não é o que você está olhando - é algo como ortogonalidade mútua, presumivelmente. ...
ctd
1
ctd ... Se você realmente quer dizer independência estatística (mútua / p-variável) de todos os preditores, não receberá coeficientes exatamente zero em regressões univariadas dessa maneira, mas também não precisará de separação completa, como no exemplo acima .
Glen_b -Reinstala Monica
2

X1X2

X2X1X1ρx1,y|x2y=β1X1+β2X2+ϵρx1,y

Ray Yang
fonte
0

XXXXXX=x1,x2...oipicicioi=0cixicioi=0cixiX1X2EX1X2EX1X1X2X2EX1X2YY

Acumulação
fonte