Treinei um modelo de regressão linear, usando um conjunto de variáveis / recursos. E o modelo tem um bom desempenho. No entanto, percebi que não há variável com uma boa correlação com a variável prevista. Como isso é possível?
17
Treinei um modelo de regressão linear, usando um conjunto de variáveis / recursos. E o modelo tem um bom desempenho. No entanto, percebi que não há variável com uma boa correlação com a variável prevista. Como isso é possível?
Respostas:
Um par de variáveis pode mostrar alta correlação parcial (a correlação responsável pelo impacto de outras variáveis), mas baixa ou mesmo zero - correlação marginal (correlação pareada).
O que significa que a correlação pareada entre uma resposta, y e algum preditor, x pode ter pouco valor na identificação de variáveis adequadas com valor "preditivo" (linear) entre uma coleção de outras variáveis.
Considere os seguintes dados:
A correlação entre y e x é . Se eu chamar a linha dos mínimos quadrados, é perfeitamente horizontal e R 2 é, naturalmente, vai ser 0 .0 R2 0
Mas quando você adiciona uma nova variável g, que indica de qual dos dois grupos as observações vieram, x se torna extremamente informativo:
O de um modelo de regressão linear com ambos o x e g variáveis em que vai ser um.R2
É possível que esse tipo de coisa aconteça com todas as variáveis do modelo - que todas tenham uma pequena correlação pareada com a resposta, mas o modelo com todas elas é muito bom em prever a resposta.
Leitura adicional:
https://en.wikipedia.org/wiki/Omitted-variable_bias
https://en.wikipedia.org/wiki/Simpson%27s_paradox
fonte
fonte
fonte