As variáveis ​​independentes com baixa correlação com a variável dependente podem ser preditores significativos?

10

Eu tenho oito variáveis ​​independentes e uma dependente. Eu corri uma matriz de correlação, e 5 deles têm uma baixa correlação com o DV. Em seguida, executei uma regressão múltipla passo a passo para ver se algum / todos os IVs podem prever o DV. A regressão mostrou que apenas dois IVs podem prever o DV (embora possa representar apenas cerca de 20% da variação), e o SPSS removeu o restante do modelo. Meu supervisor calcula que eu não executei a regressão corretamente, pois, devido à força das correlações, eu deveria ter encontrado mais preditores no modelo de regressão. Mas as correlações eram pequenas, então minha pergunta é: se os IVs e o VD dificilmente se correlacionam, os IVs ainda podem ser bons preditores do VD?

Elle
fonte
5
Seu título e seu conteúdo mostram alguma confusão entre os termos "dependente" e "independente". Verifique se minha edição preserva o significado pretendido. O fato de as pessoas ficarem confusas sobre qual é o que fortalece o argumento para uma terminologia mais sugestiva, como "resposta" ou "resultado", em vez de "variável dependente". Finalmente, nas abreviações, observe que para muitas pessoas "IV" significa variável instrumental .
Nick Cox
4
Sim é possivel. Um dos motivos é o alto tamanho da amostra. Outro motivo é confuso: a principal variável independente pode mostrar uma baixa correlação com o dependente, porque é confundida por outra variável independente. Uma vez que o fator de confusão é adicionado ao modelo, ele pode fazer a variável independente original mudar de não preditiva para preditiva (ou preditiva para não preditiva, dependendo dos tipos de confusão). A regressão concorda plenamente com todos os testes de correlação apenas quando todas as variáveis ​​independentes não estão correlacionados, isso quase nunca acontece.
Penguin_Knight
3
Dizer uma regressão passo a passo "mostrou que apenas dois IV podem prever o DV" sugere que você não entende como ele funciona. Se dois IVs estão fortemente correlacionados, e qualquer um prevê o DV igualmente bem, um procedimento passo a passo pode remover um arbitrariamente. Qual é o problema com o uso do modelo 8-IV completo?
Scortchi - Restabelecer Monica
3
Se tentado a usar passo a passo, procure Frank Harrell, estratégias de modelagem de regressão Springer, NY, 2001 como um antídoto. Ele está ativo neste site e provavelmente dispara foguetes se ouvir a palavra "passo a passo".
Nick Cox
1
Quanto mais fraca a sua compreensão das estatísticas, menos você deve estar brincando com os procedimentos de seleção de variáveis. Se o seu objetivo é examinar como cada IV se relaciona com o VD após controlar os outros, é exatamente o que os coeficientes estimam (com seus intervalos de confiança) do modelo completo estão lhe dizendo. Examinar os fatores de inflação de variação ao lado indica como as correlações entre IVs estão contribuindo para a incerteza. Use um coeficiente de determinação com validação cruzada ou ajustado, , para avaliar a capacidade preditiva de todo o modelo e verificar se há excesso de ajuste. R2
Scortchi - Restabelece Monica

Respostas:

8

Com uma matriz de correlação, você está examinando associações incondicionais (brutas) entre suas variáveis. Com um modelo de regressão, você está examinando as associações conjuntas dos seus IVs com os seus DVs, analisando, assim, associações condicionais (para cada IV, sua associação com o DV condicional nos outros IVs). Dependendo da estrutura dos seus dados, esses dois podem produzir resultados muito diferentes e até contrários.

miura
fonte
5

Coincidentemente, eu estava apenas olhando para um exemplo que havia criado anteriormente para mostrar conceitos semelhantes (na verdade, para mostrar um dos problemas da regressão gradual). Aqui está o código R para criar e analisar um conjunto de dados simulado:

set.seed(1)
x1 <- rnorm(25)
x2 <- rnorm(25, x1)
y <- x1-x2 + rnorm(25)
pairs( cbind(y,x1,x2) )    # Relevant results of each following line appear below...
cor( cbind(y,x1,x2) )      # rx1y  =   .08      rx2y = -.26      rx1x2 = .79
summary(lm(y~x1))          # t(23) =   .39         p = .70
summary(lm(y~x2))          # t(23) = -1.28         p = .21
summary(lm(y~x1+x2))       # t(22) =  2.54, -2.88  p = .02, .01 (for x1 & x2, respectively)

As correlações e regressões lineares simples mostram relações baixas (não estatisticamente significativas) entre e cada uma das variáveis . Mas foi definido como uma função de ambos s, e a regressão múltipla mostra ambos como preditores significativos.x y xyxyx

Greg Snow
fonte
4

Sua pergunta seria mais fácil de responder se pudéssemos ver detalhes quantitativos da sua saída de software e, idealmente, ter uma visão dos dados também.

O que é "baixa correlação", em particular? Qual nível de significância você está usando? Existem relacionamentos internos entre preditores que resultam na queda do SPSS?

Observe que não temos margem para julgar se você usou a sintaxe melhor ou mais apropriada para o seu objetivo, pois não indica exatamente o que fez.

Em termos gerais, baixas correlações entre preditores e resultados implicam que a regressão pode ser decepcionante da mesma maneira que você precisa de chocolate para fazer bolo de chocolate. Dê-nos mais detalhes e você deverá obter uma resposta melhor.

Também em termos gerais, a decepção do seu supervisor não implica que você fez a coisa errada. Se o seu supervisor conhece menos estatísticas do que você, você precisa procurar aconselhamento e apoio de outras pessoas em sua instituição.

Nick Cox
fonte
Obrigado a todos. Eu sei que isso é um pouco de uma pergunta de bebê. Percebi o estresse, pois meu DV e meus IVs são Locus of Control (com 3 subescalas), Suporte Social, Autoeficácia de enfrentamento (3 subescalas) e Inteligência Emocional (todos relacionados a questionários de autorrelato) e quero saber como / se os DVs são capazes de prever o estresse percebido. Eu olhei para correlações entre todas as variáveis, todas elas estão abaixo de 0,40, o nível de significância é 0,001. Fiz uma correlação de Pearsons primeiro para ver se os DVs se correlacionam com o estresse percebido, depois a regressão para ver se eles podem prever o estresse.
Elle
1
Como o @miura enfatiza, coisas engraçadas podem acontecer, mas esses resultados parecem perfeitamente consistentes com relativamente baixo . R2
Nick Cox