A regressão linear simples implica causalidade?

17

Eu sei que correlação não implica causalidade, mas a força e a direção do relacionamento. A regressão linear simples implica causalidade? Ou é necessário um teste estatístico inferencial (teste t, etc.)?

user4572
fonte
3
O que você quer dizer com "direção"? Você leu as respostas para perguntas semelhantes stats.stackexchange.com/search?q=causal ? A resposta curta é não!
NRH
3
Nenhuma das suas sugestões implica causalidade (ou direção).
Henry
2
Penso que o OP significava "sentido", no sentido de positivo vs correlação negativa, não a direcção de qualquer relação causal entre X e Y.
JMS

Respostas:

19

A resposta rápida e não. Você pode criar facilmente dados não relacionados que, quando regredidos, serão aprovados em todos os tipos de testes estatísticos. Abaixo está uma imagem antiga da Wikipedia (que, por algum motivo foi removida recentemente), usada para ilustrar a "causalidade" orientada a dados.

Precisamos de mais piratas para esfriar o planeta?

insira a descrição da imagem aqui

Para séries temporais, existe um termo chamado "Causalidade de Granger" que tem um significado muito específico.

http://en.wikipedia.org/wiki/Granger_causality

Fora isso, "causalidade" está nos olhos de quem vê.

bill_080
fonte
Eu quis dizer correlação positiva ou negativa por direção. Agradecemos sua resposta e link para perguntas semelhantes.
User4572 12/12/11
1
Isso é um eixo X bastante louco nessa foto! (Mas bom exemplo!)
Andy W
2
Outro ..... Queijo, Manteiga e Ovelha em Bangladesh, em comparação com o S & P500 (R ^ 2 = 0,99) ...... nerdsonwallstreet.typepad.com/my_weblog/files/… ....
bill_080
5
Esse gráfico está obviamente desatualizado. Ou isso ou existe um viés devido à falta de inspectores disponíveis para amostragem no Golfo de Áden
cardeal
2
Esses dados foram antes de Al Gore se tornar um pirata.
bill_080
10

Não há nada explícito na matemática da regressão que declare relações causais e, portanto, não é necessário interpretar explicitamente a inclinação (força e direção) nem os valores p (ou seja, a probabilidade de uma relação tão forte quanto ou mais forte ter sido observada se o relação foi zero na população) de maneira causal.

Dito isto, eu diria que a regressão tem uma conotação muito mais forte de que alguém está estimando uma relação direcional explícita do que a correlação entre duas variáveis. Assumindo por correlação que você quer dizer r de Pearson , ele normalmente não tem uma interpretação causal explícita, pois a métrica é simétrica (ou seja, você pode alternar qual variável é X e qual é Y e você ainda terá a mesma medida). Também o coloquialismo "Correlação não implica causalidade" eu suspeitaria ser tão conhecido que afirmar que duas variáveis ​​estão correlacionadas, a suposição é de que uma não está fazendo uma afirmação causal.

Os efeitos estimados na análise de regressão não são simétricos; portanto, ao escolher qual variável está do lado direito versus o lado esquerdo, uma pessoa está fazendo uma declaração implícita diferente da da correlação. Suspeito que alguém pretenda fazer alguma declaração causal na grande maioria das circunstâncias em que a regressão é usada (inferência versus previsão à parte). Mesmo nos casos de simplesmente declarar correlações, suspeito que as pessoas frequentemente tenham em mente alguns objetivos implícitos de inferência causal. Dadas algumas restrições, a correlação pode implicar causalidade !

Andy W
fonte
7

Nem a correlação nem a regressão podem indicar a causa (como é ilustrado pela resposta de @ bill_080), mas como @Andy W indica que a regressão geralmente é baseada em uma variável explicitamente fixa (ou seja, independente) e uma variável dependente explícita (ou seja, aleatória). Essas designações não são apropriadas na análise de correlação.

Para citar Sokal e Rohlf, 1969, p. 496

"Na regressão, pretendemos descrever a dependência de uma variável Y de uma variável independente X ... para apoiar hipóteses sobre a possível causa de alterações em Y por mudanças em X ..."

"Em correlação, por outro lado, estamos preocupados em grande parte se duas variáveis ​​são interdependentes ou covárias - isto é, variam juntas. Não expressamos uma em função da outra".

Sokal, RR e FJ Rohlf, 1969. Biometry . Freeman and Co.

DQdlM
fonte
4

De uma perspectiva semântica, um objetivo alternativo é construir evidências para um bom modelo preditivo em vez de provar a causalidade. Um procedimento simples para construir evidências para o valor preditivo de um modelo de regressão é dividir seus dados em 2 partes e ajustá-la a uma parte dos dados e com a outra parte do teste de dados quão bem ele prevê.

A noção de causalidade de Granger é interessante.

b_dev
fonte
2

β^=Cov(x,y)Var(x)
α^=y¯β^x¯,

onde Var (.) e Cov (.) são estimativas da amostra (dados).

Consequentemente, esses próprios parâmetros nada mais são do que algumas funções de correlação entre x e y. Especialmente, beta é apenas um coeficiente de correlação "normalizado". Portanto, não há causalidade mais implícita na regressão do que na correlação. A regressão causal é uma técnica especial em econometria, na qual seria necessário confiar, por exemplo, em variáveis ​​instrumentais para contornar fenômenos como confusões que obscurecem a interpretação causal de qualquer modelo de regressão específico.

O que quero dizer é: a regressão pode ser feita causal, mas não é causal e padrão.

Para mais informações, veja estes vídeos: https://www.youtube.com/watch?v=Sqy_b5OSiXw&list=PLwJRxp3blEvaxmHgI2iOzNP6KGLSyd4dz&index=55&t=0s

O "modelo Rubin" do próprio Rubin: http://www.stat.columbia.edu/~cook/qr33.pdf

Grande curso introdutório sobre causalidade (embora ainda não haja regressão): https://www.coursera.org/learn/crash-course-in-causality

Alfred Beit
fonte
Bons pontos. Bem-vindo ao CV.
Neil G
0

Meu entendimento (iniciante em causalidade) é o seguinte:

E(ϵ|X)=0

mlstudent
fonte
2
Você poderia elaborar como E(ϵ|X)=0
Veja isso para uma discussão detalhada stats.stackexchange.com/questions/59588/… , com alguns pontos interessantes.
mlstudent
E(ϵ|X)=0
Sou um pouco novo em causalidade, mas, pelo que entendi, existem três grandes preocupações que poderiam fazer y=α+βx+ϵnão implica causalidade. Uma é se houver alguma outra variável omitida causandoy, outra é se houver uma variável omitida causando xe, finalmente, um terceiro é que y pode causar x. Tudo levará a violações da condição de exogeneidade. Eu não tenho a matemática exatamente por que, mas na verdade vou procurar isso / tentar derivar isso.
mlstudent
Um exemplo simples de contador. Quando você gera dadosYN(μY,σY) e X|YN(uma+bY,σX) então você ainda tem E(ϵ|X)=0 0(X e Y são distribuídos em conjunto normal).
Sextus Empiricus
-6

Regression ASSUMES a causal relationship....if there is no basis for causality as a result of physical/intellectual/scientific analysis of the issue, there is no basis for a causal analysis and no basis for a regression. This is why the FDA and similar government agencies are always proclaiming "This causes that!" only to retract it years and billions of dollars in damage, later. Examples are legion: coffee, chocolate, caffeine, bacon, eggs, etc....

Worse yet is when two variable have a feedback loop. One may cause the other at one point; only for the other to cause the one, later. This always happens in my field, economics: which is why most economic analysis isn't worth the paper it is printed on.

Gary Jakacky
fonte
6
This is completely wrong. Regression just finds a relationship between two sets of numbers. Whether that relationship exists because of a direct causal connection or not is a completely different issue.
gung - Reinstate Monica