É válido incluir uma medida de linha de base como variável de controle ao testar o efeito de uma variável independente nas pontuações de mudança?

38

Estou tentando executar uma regressão OLS:

  • DV: Alteração de peso ao longo de um ano (peso inicial - peso final)

  • IV: Se você se exercita ou não.

No entanto, parece razoável que pessoas mais pesadas percam mais peso por unidade de exercício do que pessoas mais magras. Assim, eu queria incluir uma variável de controle:

  • CV: Peso inicial inicial.

No entanto, agora o peso inicial é usado AMBOS para calcular a variável dependente AND como uma variável de controle.

Tudo bem? Isso viola uma suposição de OLS?

ChrisStata
fonte
4
O tratamento foi designado aleatoriamente?
Andy W
1
Observe que também foi solicitado recentemente um outro muito semelhante, stats.stackexchange.com/q/15104/1036 . A resposta a essa pergunta é aplicável a essa pergunta (na verdade, eu diria que são perguntas duplicadas).
21711 Andy W
3
@ Andy Na verdade, as duas perguntas são diferentes o suficiente para que eu desse uma resposta diferente a essa do que da outra. Charlie já fez uma boa análise aqui.
whuber
3
Note que o uso pontuações diferença é tipicamente associada com uma redução substancial em termos de fiabilidade, embora este seja um pouco debatido
Behacad

Respostas:

25

Para responder sua pergunta literal: "É válido incluir uma medida de linha de base como variável de controle ao testar o efeito de uma variável independente nas pontuações de mudança?", A resposta é não . A resposta é não, porque, por construção, a pontuação da linha de base é correlacionada com o termo de erro quando a pontuação da mudança é usada como variável dependente; portanto, o efeito estimado da linha de base na pontuação da mudança é ininterpretável.

Usando

  • Y1 como o peso inicial
  • Y2 como o peso final
  • Δ Y = Y 2 - Y 1ΔY como a alteração de peso (por exemplo, )ΔY=Y2Y1
  • T como um tratamento designado aleatoriamente , e
  • X como outros fatores exógenos que afetam o peso (por exemplo, outras variáveis ​​de controle que estão relacionadas ao resultado, mas não devem ser correlacionadas com o tratamento devido à atribuição aleatória)

Uma então tem um modelo de regressão em T e X ;ΔYTX

ΔY=β1T+β2X+e

Que por definição é equivalente a;

Y2Y1=β1T+β2X+e

Agora, se você incluir a linha de base como covariável, deve-se ver um problema, pois você tem o termo em ambos os lados da equação. Isso mostra que β 3 Y 1 é incompreensível, porque está inerentemente correlacionado com o termo do erro.Y1β3Y1

Y2-Y1=β1T+β2X+β3Y1+eY2=β1T+β2X+β3Y1+(e+Y1)

Agora, a parte de confusão nos vários respostas parece resultar do facto de diferentes modelos irá produzir resultados idênticos para o efeito do tratamento , na minha formulação acima. Portanto, se alguém comparasse o efeito do tratamento para o modelo usando escores de mudança como variável dependente do modelo usando os "níveis" (com cada modelo incluindo a linha de base Y 1 como covariável), a interpretação do efeito do tratamento seria o mesmo. Nos dois modelos que seguem β 1 T serão os mesmos, e as inferências baseadas neles (Bruce Weaver tem algum código SPSS publicado demonstrando a equivalência também).β1TY1β1T

Change Score Model:Y2Y1=β1T+β2X+β3Y1+eLevels Model:Y2=β1T+β2X+β3Y1+e

Então, alguns argumentam (como Felix fez neste tópico, e como Bruce Weaver fez em algumas discussões no grupo do Google SPSS no Google)) que, como os modelos resultam no mesmo efeito estimado de tratamento, não importa qual deles você escolher. Eu discordo, porque a covariável da linha de base no modelo de pontuação de alteração não pode ser interpretada, você nunca deve incluir a linha de base como covariável (independentemente de o efeito estimado do tratamento ser o mesmo ou não). Então isso levanta outra questão: qual é o sentido de usar as pontuações de mudança como variáveis ​​dependentes? Como Felix já observou também, o modelo que usa a pontuação de mudança como variável dependente, excluindo a linha de base como covariável, é diferente do modelo que usa os níveis. Para esclarecer, os modelos subseqüentes fornecerão efeitos de tratamento diferentes (especialmente no caso em que o tratamento esteja correlacionado com a linha de base);

Chumange Score Modeeu WEuthovocêt BumaseeuEune:Y2-Y1=β1T+β2X+eeueveeus Modeeu:Y2=β1T+β2X+β3Y1+e

Isso foi observado na literatura anterior como "Paradoxo do Senhor". Então, qual modelo está certo? Bem, no caso de experimentos randomizados, eu diria que o modelo de Níveis é preferível (embora se você tenha feito um bom trabalho de randomização, o efeito médio do tratamento deve ser muito próximo entre os modelos). Outros observaram razões pelas quais o modelo de níveis é preferível, a resposta de Charlie enfatiza que você pode estimar os efeitos de interação com a linha de base no modelo de níveis (mas não no modelo de pontuação de mudança). Whuber nesta resposta a uma pergunta muito semelhante demonstra como as pontuações de mudança induzem correlações entre diferentes tratamentos.

Nas situações em que o tratamento não é designado aleatoriamente, o modelo que utiliza escores de mudança como variável dependente deve receber mais consideração. O principal benefício do modelo de pontuação de mudança é que a qualquer momento são controlados preditores invariantes do resultado. Assim, na formulação acima, é constante ao longo do tempo (por exemplo, uma predisposição genética com um certo peso) e X está correlacionado com a escolha de um indivíduo por se exercitar (e X não é observado). Nesse caso, o modelo de pontuação da mudança é preferível. Também nos casos em que a seleção para o tratamento está correlacionada com o valor da linha de base, o modelo do escore de mudança pode ser preferível. Paul Allison em seu artigo,XXXMudar as pontuações como variáveis ​​dependentes na análise de regressão , fornece os mesmos exemplos (e influenciou amplamente minha perspectiva sobre o tópico, por isso sugiro lê-lo).

Isso não quer dizer que as pontuações das alterações sejam sempre preferíveis em configurações não aleatórias. Caso você espere que a linha de base tenha um efeito causal real no peso posterior, você deve usar o modelo de níveis. No caso em que você espera que a linha de base tenha um efeito causal e a seleção no tratamento esteja correlacionada com a linha de base, o efeito do tratamento é confundido com o efeito da linha de base.

Ignorei a observação de Charlie de que o logaritmo do peso poderia ser usado como variável dependente. Embora eu não duvide de que isso possa ser uma possibilidade, é um tanto não sucessor da pergunta inicial. Outra questão foi discutida quando é apropriado usar os logaritmos da variável (e os que ainda se aplicam neste caso). Provavelmente, existe literatura anterior sobre o assunto que ajudaria a orientá-lo sobre se o uso do peso registrado também é apropriado.


Citação

Allison, Paul D. 1990. Altere os escores como variáveis ​​dependentes na análise de regressão . Metodologia Sociológica 20: 93-114. Versão em PDF público .

Andy W
fonte
3
Na equação se, como é prática corrente, assumimos que todas as covariáveis ​​não são variáveis ​​aleatórias, então Y 1 não está correlacionado com e + Y 1 . Portanto, acho que há apenas um problema se você visualizar Y 1 como aleatório. Nesse caso (novamente apenas minha opinião), você deve modelar ( Y 1 , Y 2 )Y2=β1T+β2X+β3Y1+(e+Y1)Y1e+Y1Y1(Y1,Y2)em conjunto, mas sem como covariável. A este respeito, sem dados em falta Fui informado que esta abordagem é equivalente a Y 1 ser uma co-variável fixa (I vai tentar encontrar algumas referências para isso). Y1Y1
dandar
1
@ dandar, essa afirmação não faz sentido para mim. Observe que é o valor de pré-tratamento do resultado , não é a variável que está sendo manipulada em um experimento. Você está dizendo que, se eu tenho o valor de linha de base de Y 1 , realizo um experimento e, depois, meço Y 2 , devo modelar Y 1 e Y 2 em função da intervenção experimental? Y1Y1Y2Y1Y2
Andy W
1
O modelo que eu estou falando, de fato, implica é uma função do tratamento, mas apenas do ponto de vista de que, apesar de randomização sempre haverá pequenas diferenças entre o grupo de tratamento e controle com relação aos seus meios de linha de base. Assim, β 1 capturará essa diferença, bem como o efeito do tratamento. A referência para isso é ("Análise longitudinal de dados de respostas contínuas e discretas para projetos pré-pós", de Zeger e Liang, 2000). Y1β1
dandar
1
Uma discussão clara deste artigo pode ser encontrada em (“A linha de base deve ser uma variável covariável ou dependente nas análises de mudança em relação à linha de base em ensaios clínicos?” Por Liu, Mogg, Mallick e Mehrotra 2009). Eles se referem a este modelo como um modelo incondicional (ou seja, ele não condiciona a resposta da linha de base). No artigo de Liu (2009) eles discutem os principais resultados do artigo de Zeger (2000). Estes são, em primeiro lugar, que sem dados em falta as estimativas pontuais de do modelo incondicional são os mesmos que os da abordagem condicional da ANCOVA usando o pós-baseB1
Dandar
1
medição como resposta e condicionamento a um valor de linha de base fixo e, em segundo lugar, que a variação da estimativa pontual do modelo ANCOVA é sempre maior ou igual à do incondicional. Acontece que essa diferença de variância normalmente será pequena devido à randomização, garantindo que as respostas médias da linha de base entre os grupos sejam pequenas. Os autores concluem que o modelo incondicional é apropriado para modelar a linha de base como uma variável aleatória, mas ANCOVA conforme apropriado ao visualizá-lo como fixo.
Dandar
21

A resposta de Andy parece ser a visão do economista das coisas. É prática aceita em ensaios clínicos quase sempre ajustar a versão da linha de base da variável resposta, para aumentar significativamente o poder. Como condicionamos as variáveis ​​de linha de base, não há um 'termo de erro' para que elas sejam confundidas com o termo geral de erro. O único problema seria se os erros de medição na covariável da linha de base fossem confundidos com outro X, distorcendo o efeito do outro X. O método geral preferido é ajustar a linha de base e modelar a variável de resposta, sem computar a alteração. Uma razão para isso é que a mudança depende fortemente de corrigir a transformação de Y, e essa mudança não se aplica aos modelos de regressão em geral. Por exemplo, se Y é ordinal, a diferença entre duas variáveis ​​ordinais não é mais ordinal.

Frank Harrell
fonte
1
Eu não entendo completamente essa resposta. O que você quer dizer com "ajustar para a linha de base"? Pegue a diferença ou controle-a?
Henrik
3
Por "ajustar para a linha de base", eu quis dizer incluir a linha de base como covariável. Também é comum usar as pontuações de mudança, mas você não pode usá-las sem também ajustar a linha de base como covariável (daí, por que se preocupar com as pontuações de mudança?).
precisa
6
Na verdade, nada do que você diz aqui (ou em resposta aos comentários de Felix) entra em conflito direto com o que eu digo. O uso das pontuações de mudança não 'se ajusta à linha de base', controla as variáveis ​​omitidas invariáveis ​​a qualquer momento (ou se a seleção para o tratamento estiver altamente correlacionada à linha de base). Se a linha de base não for negligenciável (isto é, tem um efeito causal direto no resultado ou tem uma interação com o tratamento), as pontuações de mudança não resolvem o problema.
Andy W
2
@ Frank Harrell Obrigado por se juntar a esta discussão e esclarecer isso. (+1)
Henrik
8

Podemos alterar um pouco o raciocínio de @ ocram para ter

E[w1w0X,w0]=β0+xβ+w0γE[w1X,w0]=β0+xβ+w0(γ+1)

Portanto, se esse é o modelo certo , dizer que a diferença depende do peso implica que o valor final depende do valor inicial com um coeficiente que pode ser qualquer coisa. Executar uma regressão da diferença em e w 0 ou o peso final nas mesmas variáveis ​​deve fornecer os mesmos coeficientes em tudo, exceto w 0 . Mas, se este modelo não estiver exatamente correto, essas regressões também fornecerão resultados diferentes nos outros coeficientes.xw0w0

Observe que essa configuração implica que o peso inicial prediz a diferença de peso, não o impacto do tratamento . Isso exigiria um termo de interação, talvez

E[w1w0X,w0]=β0+(xw0)β+w0γ.

Outra abordagem seria calcular aqui, r é a taxa de crescimento do peso. Este poderia ser o seu resultado. Seus coeficientes em x

log(w1)log(w0)r;
rxestaria lhe dizendo como esses preditores estão relacionados a mudanças de proporção no peso. Isso "controla" o peso inicial, dizendo que, por exemplo, um regime de exercícios que reduz o peso em 10% (um coeficiente de 0,1 multiplicado por 100%) para alguém que pesa 130 libras reduz o peso em 13 libras, enquanto o programa reduz o peso de um participante de 200 libras por 20 libras. Nesse caso, talvez você não precise incluir o peso inicial (ou seu log) no lado direito.

w0w0β1β1

log(w0)β1/w0

Como você pode ver, as parciais cruzadas em termos de interação podem se tornar um pouco difíceis de interpretar, mas podem capturar um impacto no qual você está interessado.

Charlie
fonte
Oi Charlie, vejo a vantagem de usar a mudança de proporção, no entanto, por que você encontra a diferença nas variáveis ​​registradas em vez de apenas dividir w1 sobre w0.
ChrisStata
Eu gosto da ideia de mudança proporcional. A questão permanece, no entanto, se a interação esperada é literalmente proporcional ou não. Caso contrário, você ainda precisará incluir o peso inicial como covariável. Ou você tem certeza de que é da mesma dificuldade perder 10% do seu peso para uma pessoa de 100 ou 200 libras?
Henrik
@ ChrisStata, você também pode fazer isso. Sou economista e adoramos nossos registros (e também a diferença). Se você tivesse uma série temporal (ou seja, várias observações) para cada pessoa (criando um conjunto de dados em painel), eu poderia argumentar que meu caminho é melhor, mas isso não é relevante aqui. Henrik, você está certo; Eu adicionei um pouco sobre isso à minha resposta.
Charlie
8

EDIT: O argumento de Andy W me convenceu a abandonar o Modelo C. Adicionei outra possibilidade: Analisando alterações com modelos de coeficiente aleatório (também conhecidos como modelos multinível ou modelos de efeitos mistos)

Houve muito debate científico sobre o uso de pontuações por diferenças. Meus textos favoritos são Rogosa (1982, [1]) e Fitzmaurice, Laird, & Ware (2004, [2])

Em geral, você tem três possibilidades de analisar seus dados:

  • A) Tome apenas a pontuação da diferença interindividual (a pontuação da mudança)
  • B) Trate a pós-medição como DV e controle-a para a linha de base
  • C) Pegue a pontuação da diferença como DV e controle-a para a linha de base (esse é o modelo que você sugeriu). Devido aos argumentos de Andy W, deixei cair essa alternativa
  • D) Utilizando uma abordagem multinível / modelo de efeito misto, em que a linha de regressão é modelada para cada participante e o participante é tratado como unidades de Nível 2.

Os modelos A e B podem produzir resultados muito diferentes se a linha de base estiver correlacionada com a pontuação da alteração (por exemplo, pessoas mais pesadas têm mais perda de peso) e / ou a atribuição de tratamento estiver correlacionada com a linha de base.

Se você quiser saber mais sobre essas questões, consulte os artigos citados, ou aqui e aqui .

Também houve um recente estudo de simulação [3] que compara empiricamente as condições sob as quais A ou B são preferíveis.

Para projetos completamente balanceados sem valores ausentes, o Modelo D deve ser equivalente ao Modelo A. No entanto, fornece mais informações sobre a variabilidade entre pessoas, é facilmente estendido para mais pontos de medição e possui boas propriedades na presença de dados desequilibrados. e / ou valores ausentes.

Como conclusão: no seu caso, eu analisaria as pós-medidas controladas para a linha de base (modelo B).

[1] Rogosa, D., Brandt, D. e Zimowski, M. (1982). Uma abordagem de curva de crescimento para a medição da mudança. Boletim Psicológico, 92, 726-748.

[2] Fitzmaurice, GM, Laird, NM e Ware, JH (2004). Análise longitudinal aplicada. Hoboken, NJ: Wiley.

[3] Petscher, Y., & Schatschneider, C., 2011. Um estudo de simulação sobre o desempenho da diferença simples e pontuação ajustada por covariância em projetos experimentais randomizados. Journal of Educational Measurement, 48, 31-43.

Felix S
fonte
Eu diminuí a votação desta resposta e você pode ver a minha resposta por que acredito que as pontuações de mudança com a linha de base como covariável não devem ser feitas. Para resumir, mesmo que os Modelos B e C em sua formulação produzam efeitos equivalentes ao tratamento, isso não significa que o Modelo C seja preferível. De fato, o efeito da linha de base no Modelo C é incompreensível, portanto, argumento que não deve ser usado.
Andy W
@ AndyW: Seu argumento me convenceu; Embora a estimativa mais relevante do efeito do tratamento seja a mesma nos dois modelos, o Modelo B deve ser preferido em relação ao Modelo C. Ajustei minha resposta de acordo. Mas o que você diz Laird, N. (1983). Further Comparative Analyses of Pretest-Posttest Research Designs. The American Statistician, 37, 329-330.?, quem mostra uma equivalência de B e C?
Felix S
b¯b¯
Um ponto para o modelo D. Gostaria de saber por que não considerar apenas o modelo D. É o mais consistente (o valor da linha de base é uma variável aleatória e não deve ser forçado a uma variável dependente), é simples, muito flexível (a interação pode adicionado) e fornece também o desvio padrão da população.
Giordano
3

Glymour et al. (2005) abordado usando o ajuste da linha de base ao analisar uma pontuação de mudança. Se a mudança no estado de saúde preceder a avaliação da linha de base ou se houver um grande erro de medição na variável dependente, eles descobrirão que pode haver um viés se o modelo de regressão usando a pontuação da mudança como variável dependente incluir uma covariável da linha de base. Resposta de Frank Harrell "O único problema seria se os erros de medição na covariável da linha de base fossem confundidos com outro X, distorcendo o efeito do outro X". pode estar refletindo o mesmo viés que os endereços de Glymour.

Glymour (2005) "Quando o ajuste da linha de base é útil na análise da mudança? Um exemplo com educação e mudança cognitiva. American Journal of Epidemiology 162: 267-278

David Svendsgaard
fonte
1

Ocram não está correto. A diferença de pesos não leva em consideração o peso inicial. Especificamente, o peso inicial é retirado subtraindo-se o peso final.

Portanto, eu argumentaria que ele não viola nenhuma suposição se você controlar o peso inicial.

(A mesma lógica se aplica se você considerar a diferença entre o IMC e o IMC inicial.)


Atualizar
Após o crítico de Andy W, deixe-me ser mais formal sobre o motivo de eu estar certo e Ocram errado (pelo menos do meu ponto).

aw
iw=awew=aw+Δw

Δw=iwew=awaw+Δw=Δw

aw

Se você quiser levar isso em consideração, precisará incorporá-lo ao seu modelo separadamente (como um parâmetro comum e / ou como um termo de interação).

ΔBMJew=awpropΔw

Henrik
fonte
Quando eu disse que a diferença leva em consideração o peso inicial, é isso que eu realmente quis dizer. Agora, especificamente, o que você escreveria? peso final - peso inicial = ...?
Ocram 18/09/11
Como escrevi, sua argumentação me parece falsa. Eu argumentaria que, na verdade, o peso final leva mais em conta o peso inicial, pois está na mesma "balança", enquanto a diferença é "redimensionada" (como o peso final, portanto, algum valor absoluto é subtraído do valor de qualquer outro valor ausente) .
Henrik
(-1) Isso não está correto. Em geral, você não deve incluir a mesma variável no lado direito e no lado esquerdo da equação (pois isso resulta na correlação da variável independente com o termo do erro). Portanto, se você usar diferenças para a variável dependente, não deverá incluir a linha de base como covariável.
Andy W
@ Andy W: Eu sei que o seu argumento está em princípio correto. Mas meu argumento é que você meio que parcializa o valor absoluto (subtraindo o valor final com a linha de base), eliminando essa correlação. Portanto, adicioná-lo como covariável não introduz esse tipo de correlação de erro espúrio.
Henrik
@ Henrik, veja minha resposta a esta pergunta e por que ainda acredito que esse sentimento é equivocado.
Andy W
0

Observe aquilo

end weightinitial weightY=β0+βTx

é equivalente a

end weight=initial weight+β0+βTx

Em palavras, usar a alteração no peso (em vez do peso final) como DV já é responsável pelo peso inicial.

ocram
fonte
1
Mas acho que pode haver uma interação entre o peso inicial e a perda de peso, com o treinamento. Digamos que um adulto de 1,90m de altura e 70kg de massa corporal e um adulto de 1,60m de altura e 90kg de massa corporal participem dos mesmos exercícios de treinamento. Aposto que o último perde mais peso. Pensando bem: talvez o índice de massa corporal seja um CV melhor do que apenas o peso.
Xmjx
1
@xmjx: Se você acha que o peso inicial afetará o peso final - e provavelmente está certo -, é uma boa ideia introduzi-lo como um deslocamento no modelo, como é feito aqui ...
ocram
3
Não está correto em geral. Se a inclinação do peso da linha de base não for 1,0, a análise da mudança não será equivalente à análise do peso final, a menos que o peso inicial esteja nos dois modelos e você esteja usando a regressão comum. Se o peso da linha de base estiver em dois lugares, o modelo é realmente mais difícil de explicar, portanto, as razões para persistir com essa abordagem não são claras.
precisa