Qual é a diferença fundamental entre esses dois modelos de regressão?

10

Suponha que eu tenha respostas bivariadas com correlação significativa. Estou tentando comparar as duas maneiras de modelar esses resultados. Uma maneira é modelar a diferença entre os dois resultados: Outra maneira é usar ou modelá-los: ( y i j = β 0 + tempo + X β )

(yi2yi1=β0+Xβ)
glsgee
(yij=β0+time+Xβ)

Aqui está um exemplo foo:

#create foo data frame

require(mvtnorm)
require(reshape)
set.seed(123456)
sigma <- matrix(c(4,2,2,3), ncol=2)
y <- rmvnorm(n=500, mean=c(1,2), sigma=sigma)
cor(y)
x1<-rnorm(500)
x2<-rbinom(500,1,0.4)
df.wide<-data.frame(id=seq(1,500,1),y1=y[,1],y2=y[,2],x1,x2)
df.long<-reshape(df.wide,idvar="id",varying=list(2:3),v.names="y",direction="long")
df.long<-df.long[order(df.long$id),]
    df.wide$diff_y<-df.wide$y2-df.wide$y1


#regressions
fit1<-lm(diff_y~x1+x2,data=df.wide)
fit2<-lm(y~time+x1+x2,data=df.long)
fit3<-gls(y~time+x1+x2,data=df.long, correlation = corAR1(form = ~ 1 | time))

Qual é a diferença fundamental entre fit1e fit2? E entre fit2e fit3, dado que eles são tão próximos dos valores e estimativas de ?p

David Z
fonte
7
A diferença entre o ajuste1 e o ajuste3 é às vezes chamada de paradoxo do Senhor. Veja aqui algumas discussões (sobre por que as estimativas não mudam entre os modelos) e uma referência a um artigo de Paul Allison, stats.stackexchange.com/a/15759/1036 . Outra referência éHolland, Paul & Donald Rubin. 1983. On Lord’s Paradox. In Principles of modern psychological measurement: A festchrift for Frederic M. Lord edited by Wainer, Howard & Samuel Messick pgs:3-25. Lawrence Erlbaum Associates. Hillsdale, NJ.
Andy W

Respostas:

1

Primeiro, apresentarei ainda um quarto modelo para a discussão em minha resposta:

fit1.5 <- lm (y_2 ~ x_1 + x_2 + y_1)

Parte 0
A diferença entre o ajuste1 e o ajuste1.5 é melhor resumida como a diferença entre uma diferença restrita e uma diferença ideal.

y2=b0 0+b1 1·x+b2·y1 1
b2
y2-b2·y1 1=b0 0+b1 1·x
y

b2=1 1

y2-y1 1=b0 0+b1 1·x

xy1 1y2t


y=b0 0+b1 1·x+b2·t
t=0 0y1 1t=1 1y2
y1 1=b0 0+b1 1·xy2=b0 0+b1 1·x+b2
y2-y1 1=b2b2b2y

Parte 2
Então, qual é a diferença entre os modelos fit2 e fit3 ... na verdade, muito pouco. O modelo fit3 é responsável pela correlação em termos de erro, mas isso altera apenas o processo de estimativa e, portanto, as diferenças entre as duas saídas do modelo serão mínimas (além do fato de o fit3 estimar o fator autorregressivo).

Parte 2.5
E vou incluir mais um modelo nesta discussão

fit4 <- lmer (y ~ tempo + x1 + x2 + (1 | id), dados = df.long)

y

Gregg H
fonte