Antes de tudo, percebo que a regressão múltipla não fornece realmente inferências "causais" sobre os dados. Deixe-me explicar meu caso atual:
Eu tenho quatro variáveis independentes que espero (mas não tenho certeza) envolvidas na condução do que estou medindo. Eu queria usar a regressão múltipla para ver quanto cada uma dessas variáveis está contribuindo para a minha variável dependente e o fiz. Supostamente, a variável "Número quatro" está influenciando muito fortemente minha medida de resultado (peso beta próximo de 0,7).
No entanto, me disseram que isso não é suficiente, porque algumas das minhas variáveis "independentes" podem de fato estar correlacionadas entre si. Nesse caso, eu poderia pensar que "Variável quatro" está dirigindo minha variável dependente, quando realmente três e quatro poderiam estar contribuindo igualmente. Parece correto, mas como sou novo nisso, não tenho certeza.
Como posso evitar sistematicamente esse problema no futuro? Quais procedimentos específicos você recomendaria ao usar a regressão múltipla para garantir que seus dados "independentes" ainda não contenham correlações ocultas?
Edit: Os dados em si são uma série de modelos de rede (gráfico) de um estado neurológico específico. Estou medindo o "coeficiente de cluster" que descreve a topologia de cada rede como um todo (variável dependente aqui) e depois verificando se as conectividades individuais de quatro nós na rede 100+ maior estão direcionando os valores globais de cluster (quatro independentes variáveis). No entanto, esses nós fazem parte de uma rede, portanto, por definição, é possível que estejam correlacionados até certo ponto.
Respostas:
Você não pode "evitar sistematicamente esse problema no futuro", porque não deve ser chamado de "problema". Se a realidade do mundo material apresenta covariáveis fortes, devemos aceitá-lo como fato e ajustar nossas teorias e modelos em conseqüência. Gosto muito da pergunta e espero que o que se segue não pareça muito decepcionante.
Aqui estão alguns ajustes que podem funcionar para você. Você precisará revisar um manual de regressão antes de continuar.
Diagnostique o problema usando técnicas de correlação ou pós-estimativa, como o fator de inflação de variação (VIF). Use as ferramentas mencionadas por Peter Flom se você estiver usando SAS ou R. No Stata, use
pwcorr
para criar uma matriz de correlação,gr matrix
para construir uma matriz de gráfico de dispersão evif
para detectar níveis de tolerância problemáticos de 1 / VIF <0,1.Meça o efeito da interação adicionando, por exemplo,
var3*var4
ao modelo. O coeficiente ajudará você a perceber quanto está em jogo entrevar3
evar4
. Isso levará você até o ponto de medir parcialmente a interação, mas não resgatará seu modelo de suas limitações.Mais importante, se você detectar uma forte multicolinearidade ou outros problemas como a heterocedasticidade, deverá abandonar o modelo e começar de novo. A especificação incorreta do modelo é a praga da análise de regressão (e métodos freqüentistas em geral). Paul Schrodt tem vários artigos excelentes sobre o assunto, incluindo seus recentes " Sete Pecados Capitais " de que gosto muito.
Isso responde ao seu ponto de vista sobre multicolinearidade, e muito disso pode ser aprendido no manual de regressão da UCLA Stat Computing. Não responde sua pergunta sobre causalidade. Resumidamente, a regressão nunca é causal. Tampouco existe um modelo estatístico: informações causais e estatísticas são espécies separadas. Leia seletivamente a Judea Pearl ( exemplo ) para saber mais sobre o assunto.
Em suma, essa resposta não anula o valor da análise de regressão, nem mesmo das estatísticas freqüentistas (por acaso, ensino ambas). No entanto, reduz o escopo de adequação e também destaca o papel crucial da sua teoria explicativa inicial, que realmente determina a possibilidade de o seu modelo possuir propriedades causais.
fonte
Se você quiser ver se as variáveis independentes estão correlacionadas, isso é fácil - basta testar as correlações, por exemplo, com PROC CORR no SAS, ou cor no R, ou o que quer que seja no pacote que você usar.
Você pode, no entanto, querer testar a colinearidade ou, além disso.
Mas isso é apenas parte do problema de causalidade. Mais problemático é que alguma variável que NÃO está nos seus dados está envolvida. Exemplos clássicos:
Os alunos que contratam tutores obtêm notas piores do que os que não contratam tutores.
A quantidade de danos causados por um incêndio está altamente relacionada ao número de bombeiros que aparecem.
e (meu favorito)
se você regredir no QI do signo astrológico e na idade entre crianças de 5 a 12 anos, há uma interação significativa e um efeito significativo do signo no QI, mas apenas em crianças pequenas.
Razões: 1. Sim. Porque os alunos que tiram notas realmente boas tendem a não contratar tutores em primeiro lugar
Sim, porque incêndios maiores causam mais danos e trazem mais bombeiros
A quantidade de escola (em meses) que uma criança teve depende do mês de nascimento. Os sistemas escolares têm limites de idade. Assim, uma criança de 6 anos pode ter 11 meses a mais de escola do que outra de 6 anos.
E tudo isso sem entrar na filosofia!
fonte
A relação entre causação e associação é basicamente para responder à seguinte pergunta:
Contanto que a resposta a essa pergunta não seja "nada", você poderá apenas falar definitivamente sobre associação. Sempre pode haver que uma relação "causal" proposta seja realmente um caso especial da relação causal "correta" - acho que é o que aconteceu entre a teoria da gravidade de Newton e Einstein. A relação causal de Newton foi um caso especial da teoria de Einstein. E sua teoria provavelmente será um caso especial de outra teoria.
Além disso, qualquer erro nos seus dados remove qualquer chance de um relacionamento causal definido. Isso ocorre porque a frase "A causa B" é um elo dedutivo entre A e B. Tudo o que você precisa fazer para refutar essa hipótese é encontrar 1 caso em que B não está presente, mas A está presente (pois A é verdadeiro , mas isso deve significar que B também é verdadeiro - mas observamos B falso).
Você também precisa de algum tipo de teoria física sobre o "mecanismo causal" (quando pressiono esse botão, a luz acende, quando pressiono esse botão, a luz muda de cor etc.). Se tudo o que você tem é que o "coeficiente de regressão era 0,7", isso ajuda muito pouco a estabelecer um mecanismo causal que está em ação.
fonte
Não tenho certeza de qual campo seu trabalho está; portanto, isso pode ou não ajudar, mas estou mais familiarizado com o uso do SPSS com construções psicológicas. Na minha experiência, se eu tenho algumas variáveis prevendo uma variável de resultado (ou variável dependente) em uma regressão e uma ou mais variáveis independentes aparecem como preditores significativos, o próximo passo é ver quais são mais importantes em termos incrementais do que outras. Uma maneira de abordar isso é com regressão hierárquica. Isso basicamente responde à pergunta "Se eu já tenho a 'variável quatro' para prever minha variável de resultado, alguma das outras variáveis fornece um aumento estatisticamente significativo no poder preditivo?" O SPSS tem uma maneira bem clara de analisar isso, como tenho certeza de que o R e o SAS também o fazem. Assim, Acho que a regressão hierárquica pode ser seu próximo passo para descobrir se a 'variável quatro' é realmente a sua melhor aposta na previsão do fator de resultado. Os outros que responderam forneceram uma boa discussão dos problemas na correlação-causalidade, então deixarei isso em paz ... Boa sorte!
fonte