Estou tentando executar uma regressão OLS:
DV: Alteração de peso ao longo de um ano (peso inicial - peso final)
IV: Se você se exercita ou não.
No entanto, parece razoável que pessoas mais pesadas percam mais peso por unidade de exercício do que pessoas mais magras. Assim, eu queria incluir uma variável de controle:
- CV: Peso inicial inicial.
No entanto, agora o peso inicial é usado AMBOS para calcular a variável dependente AND como uma variável de controle.
Tudo bem? Isso viola uma suposição de OLS?
regression
repeated-measures
least-squares
change-scores
ChrisStata
fonte
fonte
Respostas:
Para responder sua pergunta literal: "É válido incluir uma medida de linha de base como variável de controle ao testar o efeito de uma variável independente nas pontuações de mudança?", A resposta é não . A resposta é não, porque, por construção, a pontuação da linha de base é correlacionada com o termo de erro quando a pontuação da mudança é usada como variável dependente; portanto, o efeito estimado da linha de base na pontuação da mudança é ininterpretável.
Usando
Uma então tem um modelo de regressão em T e X ;ΔY T X
Que por definição é equivalente a;
Agora, se você incluir a linha de base como covariável, deve-se ver um problema, pois você tem o termo em ambos os lados da equação. Isso mostra que β 3 Y 1 é incompreensível, porque está inerentemente correlacionado com o termo do erro.Y1 β3Y1
Agora, a parte de confusão nos vários respostas parece resultar do facto de diferentes modelos irá produzir resultados idênticos para o efeito do tratamento , na minha formulação acima. Portanto, se alguém comparasse o efeito do tratamento para o modelo usando escores de mudança como variável dependente do modelo usando os "níveis" (com cada modelo incluindo a linha de base Y 1 como covariável), a interpretação do efeito do tratamento seria o mesmo. Nos dois modelos que seguem β 1 T serão os mesmos, e as inferências baseadas neles (Bruce Weaver tem algum código SPSS publicado demonstrando a equivalência também).β1T Y1 β1T
Então, alguns argumentam (como Felix fez neste tópico, e como Bruce Weaver fez em algumas discussões no grupo do Google SPSS no Google)) que, como os modelos resultam no mesmo efeito estimado de tratamento, não importa qual deles você escolher. Eu discordo, porque a covariável da linha de base no modelo de pontuação de alteração não pode ser interpretada, você nunca deve incluir a linha de base como covariável (independentemente de o efeito estimado do tratamento ser o mesmo ou não). Então isso levanta outra questão: qual é o sentido de usar as pontuações de mudança como variáveis dependentes? Como Felix já observou também, o modelo que usa a pontuação de mudança como variável dependente, excluindo a linha de base como covariável, é diferente do modelo que usa os níveis. Para esclarecer, os modelos subseqüentes fornecerão efeitos de tratamento diferentes (especialmente no caso em que o tratamento esteja correlacionado com a linha de base);
Isso foi observado na literatura anterior como "Paradoxo do Senhor". Então, qual modelo está certo? Bem, no caso de experimentos randomizados, eu diria que o modelo de Níveis é preferível (embora se você tenha feito um bom trabalho de randomização, o efeito médio do tratamento deve ser muito próximo entre os modelos). Outros observaram razões pelas quais o modelo de níveis é preferível, a resposta de Charlie enfatiza que você pode estimar os efeitos de interação com a linha de base no modelo de níveis (mas não no modelo de pontuação de mudança). Whuber nesta resposta a uma pergunta muito semelhante demonstra como as pontuações de mudança induzem correlações entre diferentes tratamentos.
Nas situações em que o tratamento não é designado aleatoriamente, o modelo que utiliza escores de mudança como variável dependente deve receber mais consideração. O principal benefício do modelo de pontuação de mudança é que a qualquer momento são controlados preditores invariantes do resultado. Assim, na formulação acima, é constante ao longo do tempo (por exemplo, uma predisposição genética com um certo peso) e X está correlacionado com a escolha de um indivíduo por se exercitar (e X não é observado). Nesse caso, o modelo de pontuação da mudança é preferível. Também nos casos em que a seleção para o tratamento está correlacionada com o valor da linha de base, o modelo do escore de mudança pode ser preferível. Paul Allison em seu artigo,X X X Mudar as pontuações como variáveis dependentes na análise de regressão , fornece os mesmos exemplos (e influenciou amplamente minha perspectiva sobre o tópico, por isso sugiro lê-lo).
Isso não quer dizer que as pontuações das alterações sejam sempre preferíveis em configurações não aleatórias. Caso você espere que a linha de base tenha um efeito causal real no peso posterior, você deve usar o modelo de níveis. No caso em que você espera que a linha de base tenha um efeito causal e a seleção no tratamento esteja correlacionada com a linha de base, o efeito do tratamento é confundido com o efeito da linha de base.
Ignorei a observação de Charlie de que o logaritmo do peso poderia ser usado como variável dependente. Embora eu não duvide de que isso possa ser uma possibilidade, é um tanto não sucessor da pergunta inicial. Outra questão foi discutida quando é apropriado usar os logaritmos da variável (e os que ainda se aplicam neste caso). Provavelmente, existe literatura anterior sobre o assunto que ajudaria a orientá-lo sobre se o uso do peso registrado também é apropriado.
Citação
Allison, Paul D. 1990. Altere os escores como variáveis dependentes na análise de regressão . Metodologia Sociológica 20: 93-114. Versão em PDF público .
fonte
A resposta de Andy parece ser a visão do economista das coisas. É prática aceita em ensaios clínicos quase sempre ajustar a versão da linha de base da variável resposta, para aumentar significativamente o poder. Como condicionamos as variáveis de linha de base, não há um 'termo de erro' para que elas sejam confundidas com o termo geral de erro. O único problema seria se os erros de medição na covariável da linha de base fossem confundidos com outro X, distorcendo o efeito do outro X. O método geral preferido é ajustar a linha de base e modelar a variável de resposta, sem computar a alteração. Uma razão para isso é que a mudança depende fortemente de corrigir a transformação de Y, e essa mudança não se aplica aos modelos de regressão em geral. Por exemplo, se Y é ordinal, a diferença entre duas variáveis ordinais não é mais ordinal.
fonte
Podemos alterar um pouco o raciocínio de @ ocram para ter
Portanto, se esse é o modelo certo , dizer que a diferença depende do peso implica que o valor final depende do valor inicial com um coeficiente que pode ser qualquer coisa. Executar uma regressão da diferença em e w 0 ou o peso final nas mesmas variáveis deve fornecer os mesmos coeficientes em tudo, exceto w 0 . Mas, se este modelo não estiver exatamente correto, essas regressões também fornecerão resultados diferentes nos outros coeficientes.x w0 w0
Observe que essa configuração implica que o peso inicial prediz a diferença de peso, não o impacto do tratamento . Isso exigiria um termo de interação, talvez
Outra abordagem seria calcular aqui, r é a taxa de crescimento do peso. Este poderia ser o seu resultado. Seus coeficientes em x
Como você pode ver, as parciais cruzadas em termos de interação podem se tornar um pouco difíceis de interpretar, mas podem capturar um impacto no qual você está interessado.
fonte
EDIT: O argumento de Andy W me convenceu a abandonar o Modelo C. Adicionei outra possibilidade: Analisando alterações com modelos de coeficiente aleatório (também conhecidos como modelos multinível ou modelos de efeitos mistos)
Houve muito debate científico sobre o uso de pontuações por diferenças. Meus textos favoritos são Rogosa (1982, [1]) e Fitzmaurice, Laird, & Ware (2004, [2])
Em geral, você tem três possibilidades de analisar seus dados:
C) Pegue a pontuação da diferença como DV e controle-a para a linha de base (esse é o modelo que você sugeriu).Devido aos argumentos de Andy W, deixei cair essa alternativaOs modelos A e B podem produzir resultados muito diferentes se a linha de base estiver correlacionada com a pontuação da alteração (por exemplo, pessoas mais pesadas têm mais perda de peso) e / ou a atribuição de tratamento estiver correlacionada com a linha de base.
Se você quiser saber mais sobre essas questões, consulte os artigos citados, ou aqui e aqui .
Também houve um recente estudo de simulação [3] que compara empiricamente as condições sob as quais A ou B são preferíveis.
Para projetos completamente balanceados sem valores ausentes, o Modelo D deve ser equivalente ao Modelo A. No entanto, fornece mais informações sobre a variabilidade entre pessoas, é facilmente estendido para mais pontos de medição e possui boas propriedades na presença de dados desequilibrados. e / ou valores ausentes.
Como conclusão: no seu caso, eu analisaria as pós-medidas controladas para a linha de base (modelo B).
[1] Rogosa, D., Brandt, D. e Zimowski, M. (1982). Uma abordagem de curva de crescimento para a medição da mudança. Boletim Psicológico, 92, 726-748.
[2] Fitzmaurice, GM, Laird, NM e Ware, JH (2004). Análise longitudinal aplicada. Hoboken, NJ: Wiley.
[3] Petscher, Y., & Schatschneider, C., 2011. Um estudo de simulação sobre o desempenho da diferença simples e pontuação ajustada por covariância em projetos experimentais randomizados. Journal of Educational Measurement, 48, 31-43.
fonte
Laird, N. (1983). Further Comparative Analyses of Pretest-Posttest Research Designs. The American Statistician, 37, 329-330.
?, quem mostra uma equivalência de B e C?Veja Josh Angrist exatamente sobre esta questão: http://www.mostlyharmlesseconometrics.com/2009/10/adding-lagged-dependent-vars-to-differenced-models/ . Ele se opõe em grande parte à inclusão do DV atrasado em seu modelo. Não há nada na resposta dele que não esteja nas respostas acima, mas uma resposta sucinta à sua pergunta pode ajudar.
fonte
Glymour et al. (2005) abordado usando o ajuste da linha de base ao analisar uma pontuação de mudança. Se a mudança no estado de saúde preceder a avaliação da linha de base ou se houver um grande erro de medição na variável dependente, eles descobrirão que pode haver um viés se o modelo de regressão usando a pontuação da mudança como variável dependente incluir uma covariável da linha de base. Resposta de Frank Harrell "O único problema seria se os erros de medição na covariável da linha de base fossem confundidos com outro X, distorcendo o efeito do outro X". pode estar refletindo o mesmo viés que os endereços de Glymour.
Glymour (2005) "Quando o ajuste da linha de base é útil na análise da mudança? Um exemplo com educação e mudança cognitiva. American Journal of Epidemiology 162: 267-278
fonte
Ocram não está correto. A diferença de pesos não leva em consideração o peso inicial. Especificamente, o peso inicial é retirado subtraindo-se o peso final.
Portanto, eu argumentaria que ele não viola nenhuma suposição se você controlar o peso inicial.
(A mesma lógica se aplica se você considerar a diferença entre o IMC e o IMC inicial.)
Atualizar
Após o crítico de Andy W, deixe-me ser mais formal sobre o motivo de eu estar certo e Ocram errado (pelo menos do meu ponto).
Se você quiser levar isso em consideração, precisará incorporá-lo ao seu modelo separadamente (como um parâmetro comum e / ou como um termo de interação).
fonte
Observe aquilo
é equivalente a
Em palavras, usar a alteração no peso (em vez do peso final) como DV já é responsável pelo peso inicial.
fonte