Alguns dias atrás, um psicólogo-pesquisador meu me contou sobre seu método para selecionar variáveis para o modelo de regressão linear. Acho que não é bom, mas preciso pedir a alguém para ter certeza. O método é:
Observe a matriz de correlação entre todas as variáveis (incluindo a variável dependente Y) e escolha os preditores Xs que mais se correlacionam com Y.
Ele não mencionou nenhum critério. Q: Ele estava certo?
[Eu acho que esse método de seleção está errado, por causa de muitas coisas, como é a teoria que diz quais preditores devem ser selecionados ou até mesmo o viés variável omitido (OVB).]
regression
correlation
model-selection
Lil'Lobster
fonte
fonte
Respostas:
Se, por algum motivo, você incluir apenas uma variável em seu modelo, a seleção do preditor que tem a maior correlação com tem várias vantagens. Fora dos possíveis modelos de regressão com apenas um preditor, em seguida, este modelo é o que apresentou o maior coeficiente de regressão normalizado e também (desde que R 2 é o quadrado de r em uma regressão linear simples ) mais alto coeficiente de determinação .y R2 r
Mas não está claro por que você deseja restringir seu modelo de regressão a um preditor se você possui dados disponíveis para vários. Conforme mencionado nos comentários, apenas observar as correlações não funcionará se o seu modelo incluir várias variáveis. Por exemplo, nessa matriz de dispersão, você pode pensar que os preditores de você deve incluir em seu modelo são x 1 (correlação 0,824) e x 2 (correlação 0,782), mas que x 3 (correlação 0,134) não é um preditor útil.y x1 x2 x3
E aqui está um exemplo que é ainda pior:
fonte
Você pode executar uma análise de regressão passo a passo e deixar o software escolher as variáveis com base nos valores de F. Você também pode observar o valor de R ^ 2 ajustado ao executar a regressão a cada vez, para ver se está adicionando alguma nova variável que esteja contribuindo para o seu modelo. Seu modelo pode ter o problema de multicolinearidade se você apenas seguir pela matriz de correlação e escolher variáveis com forte correlação. Espero que isto ajude!
fonte