O que devo saber ao usar a regressão múltipla para encontrar relacionamentos “causais” nos meus dados?

8

Antes de tudo, percebo que a regressão múltipla não fornece realmente inferências "causais" sobre os dados. Deixe-me explicar meu caso atual:

Eu tenho quatro variáveis ​​independentes que espero (mas não tenho certeza) envolvidas na condução do que estou medindo. Eu queria usar a regressão múltipla para ver quanto cada uma dessas variáveis ​​está contribuindo para a minha variável dependente e o fiz. Supostamente, a variável "Número quatro" está influenciando muito fortemente minha medida de resultado (peso beta próximo de 0,7).

No entanto, me disseram que isso não é suficiente, porque algumas das minhas variáveis ​​"independentes" podem de fato estar correlacionadas entre si. Nesse caso, eu poderia pensar que "Variável quatro" está dirigindo minha variável dependente, quando realmente três e quatro poderiam estar contribuindo igualmente. Parece correto, mas como sou novo nisso, não tenho certeza.

Como posso evitar sistematicamente esse problema no futuro? Quais procedimentos específicos você recomendaria ao usar a regressão múltipla para garantir que seus dados "independentes" ainda não contenham correlações ocultas?

Edit: Os dados em si são uma série de modelos de rede (gráfico) de um estado neurológico específico. Estou medindo o "coeficiente de cluster" que descreve a topologia de cada rede como um todo (variável dependente aqui) e depois verificando se as conectividades individuais de quatro nós na rede 100+ maior estão direcionando os valores globais de cluster (quatro independentes variáveis). No entanto, esses nós fazem parte de uma rede, portanto, por definição, é possível que estejam correlacionados até certo ponto.

rd108
fonte
3
O que torna uma correlação causal é uma questão controversa na filosofia da ciência. O "padrão ouro" é realizar um experimento em que a variável de tratamento é atribuída aleatoriamente, garantindo assim que outras covariáveis ​​potencialmente confusas não estejam sistematicamente relacionadas ao tratamento. No entanto, em muitos campos e para muitas perguntas, os experimentos são impossíveis. Alguns recorrem aos chamados experimentos naturais para exogeneidade. Você pode estar interessado no artigo clássico de Paul Holland, "Estatística e inferência causal". Jornal da Associação Estatística Americana, 81, 945-970.
Jason Morgan
1
Você está fazendo perguntas muito importantes, mas é duvidoso que alguém possa lhe dar uma série definitiva de etapas a serem seguidas ou uma boa receita condensada; dominar esta questão é uma proposição de longo prazo. Sugestões adicionais sobre termos e tópicos a serem estudados: variáveis ​​supressoras; estimativas de inflação de tolerância e variância; correlações de ordem zero, parcial e semipartial (parte); métodos de seleção de variáveis; validação cruzada.
Rolando2
Se você nos disser o objetivo dessa modelagem, poderá receber sugestões ainda mais úteis. A regressão múltipla lida muito bem com variáveis ​​independentes correlacionadas, desde que não sejam muito altamente correlacionadas, resultando em multicolinearidade. Como outros já disseram, avaliar a causalidade é difícil (mas não impossível) fora de um experimento aleatório. Veja alguns desses links: delicious.com/MichaelBishop/causality para mais informações sobre esse tópico.
Michael Bishop
Os dados em si são uma série de modelos de rede (gráfico) de um estado neurológico específico. Estou medindo o "coeficiente de cluster" que descreve a topologia de cada rede como um todo (variável dependente aqui) e depois verificando se as conectividades individuais de quatro nós na rede 100+ maior estão direcionando os valores globais de cluster (quatro independentes variáveis). No entanto, esses nós fazem parte de uma rede, portanto, por definição, é possível que estejam correlacionados até certo ponto.
rd108

Respostas:

5

Você não pode "evitar sistematicamente esse problema no futuro", porque não deve ser chamado de "problema". Se a realidade do mundo material apresenta covariáveis ​​fortes, devemos aceitá-lo como fato e ajustar nossas teorias e modelos em conseqüência. Gosto muito da pergunta e espero que o que se segue não pareça muito decepcionante.

Aqui estão alguns ajustes que podem funcionar para você. Você precisará revisar um manual de regressão antes de continuar.

  • Diagnostique o problema usando técnicas de correlação ou pós-estimativa, como o fator de inflação de variação (VIF). Use as ferramentas mencionadas por Peter Flom se você estiver usando SAS ou R. No Stata, use pwcorrpara criar uma matriz de correlação, gr matrixpara construir uma matriz de gráfico de dispersão e vifpara detectar níveis de tolerância problemáticos de 1 / VIF <0,1.

  • Meça o efeito da interação adicionando, por exemplo, var3*var4ao modelo. O coeficiente ajudará você a perceber quanto está em jogo entre var3e var4. Isso levará você até o ponto de medir parcialmente a interação, mas não resgatará seu modelo de suas limitações.

  • Mais importante, se você detectar uma forte multicolinearidade ou outros problemas como a heterocedasticidade, deverá abandonar o modelo e começar de novo. A especificação incorreta do modelo é a praga da análise de regressão (e métodos freqüentistas em geral). Paul Schrodt tem vários artigos excelentes sobre o assunto, incluindo seus recentes " Sete Pecados Capitais " de que gosto muito.

Isso responde ao seu ponto de vista sobre multicolinearidade, e muito disso pode ser aprendido no manual de regressão da UCLA Stat Computing. Não responde sua pergunta sobre causalidade. Resumidamente, a regressão nunca é causal. Tampouco existe um modelo estatístico: informações causais e estatísticas são espécies separadas. Leia seletivamente a Judea Pearl ( exemplo ) para saber mais sobre o assunto.

Em suma, essa resposta não anula o valor da análise de regressão, nem mesmo das estatísticas freqüentistas (por acaso, ensino ambas). No entanto, reduz o escopo de adequação e também destaca o papel crucial da sua teoria explicativa inicial, que realmente determina a possibilidade de o seu modelo possuir propriedades causais.

Pe.
fonte
+1 para os links do manual, mencionando colinearidade e fertilização in vitro, e as soluções específicas e até implementações em R. Estou curioso para saber sua opinião sobre se os dados em si não são adequados para a análise de regressão - editei a pergunta acima para refletir que estas são medidas de uma rede.
rd108
Desculpe pela resposta tardia, mas infelizmente sei muito pouco sobre o assunto para responder que você está usando a técnica correta. Meu palpite é que o SNA contém outras ferramentas que ajudarão (por exemplo, modelar diferentes medidas de centralidade quando você suprimir qualquer combinação de seus quatro nós).
pe.
5

Se você quiser ver se as variáveis ​​independentes estão correlacionadas, isso é fácil - basta testar as correlações, por exemplo, com PROC CORR no SAS, ou cor no R, ou o que quer que seja no pacote que você usar.

Você pode, no entanto, querer testar a colinearidade ou, além disso.

Mas isso é apenas parte do problema de causalidade. Mais problemático é que alguma variável que NÃO está nos seus dados está envolvida. Exemplos clássicos:

Os alunos que contratam tutores obtêm notas piores do que os que não contratam tutores.

A quantidade de danos causados ​​por um incêndio está altamente relacionada ao número de bombeiros que aparecem.

e (meu favorito)

se você regredir no QI do signo astrológico e na idade entre crianças de 5 a 12 anos, há uma interação significativa e um efeito significativo do signo no QI, mas apenas em crianças pequenas.


Razões: 1. Sim. Porque os alunos que tiram notas realmente boas tendem a não contratar tutores em primeiro lugar

  1. Sim, porque incêndios maiores causam mais danos e trazem mais bombeiros

  2. A quantidade de escola (em meses) que uma criança teve depende do mês de nascimento. Os sistemas escolares têm limites de idade. Assim, uma criança de 6 anos pode ter 11 meses a mais de escola do que outra de 6 anos.

E tudo isso sem entrar na filosofia!

Peter Flom
fonte
2

A relação entre causação e associação é basicamente para responder à seguinte pergunta:

XY

Contanto que a resposta a essa pergunta não seja "nada", você poderá apenas falar definitivamente sobre associação. Sempre pode haver que uma relação "causal" proposta seja realmente um caso especial da relação causal "correta" - acho que é o que aconteceu entre a teoria da gravidade de Newton e Einstein. A relação causal de Newton foi um caso especial da teoria de Einstein. E sua teoria provavelmente será um caso especial de outra teoria.

Além disso, qualquer erro nos seus dados remove qualquer chance de um relacionamento causal definido. Isso ocorre porque a frase "A causa B" é um elo dedutivo entre A e B. Tudo o que você precisa fazer para refutar essa hipótese é encontrar 1 caso em que B não está presente, mas A está presente (pois A é verdadeiro , mas isso deve significar que B também é verdadeiro - mas observamos B falso).

YYYY. E sempre que você propõe um relacionamento causal, você quase certamente terá que "prová-lo" reproduzindo seus resultados com novos dados - será necessário prever quais dados serão vistos e estar correto sobre isso.

Você também precisa de algum tipo de teoria física sobre o "mecanismo causal" (quando pressiono esse botão, a luz acende, quando pressiono esse botão, a luz muda de cor etc.). Se tudo o que você tem é que o "coeficiente de regressão era 0,7", isso ajuda muito pouco a estabelecer um mecanismo causal que está em ação.

probabilityislogic
fonte
1

Não tenho certeza de qual campo seu trabalho está; portanto, isso pode ou não ajudar, mas estou mais familiarizado com o uso do SPSS com construções psicológicas. Na minha experiência, se eu tenho algumas variáveis ​​prevendo uma variável de resultado (ou variável dependente) em uma regressão e uma ou mais variáveis ​​independentes aparecem como preditores significativos, o próximo passo é ver quais são mais importantes em termos incrementais do que outras. Uma maneira de abordar isso é com regressão hierárquica. Isso basicamente responde à pergunta "Se eu já tenho a 'variável quatro' para prever minha variável de resultado, alguma das outras variáveis ​​fornece um aumento estatisticamente significativo no poder preditivo?" O SPSS tem uma maneira bem clara de analisar isso, como tenho certeza de que o R e o SAS também o fazem. Assim, Acho que a regressão hierárquica pode ser seu próximo passo para descobrir se a 'variável quatro' é realmente a sua melhor aposta na previsão do fator de resultado. Os outros que responderam forneceram uma boa discussão dos problemas na correlação-causalidade, então deixarei isso em paz ... Boa sorte!

Travis
fonte