Fiquei me perguntando se e como é possível modelar, em alguma amostra, a mudança de resultado ao longo do tempo, que depende do valor da linha de base desse resultado, usando um modelo misto?
Imagine, por exemplo, uma situação em que o mesmo teste de conhecimento seja administrado 5 vezes ao mesmo grupo de pessoas. Como as perguntas são sempre as mesmas, os alunos aprenderão as respostas corretas ao longo do tempo e terão notas mais altas em cada administração. No entanto, naqueles que pontuaram alto em primeiro lugar, haverá menos mudanças do que naqueles que pontuaram mal. Portanto, é bem aparente que a taxa de variação depende do valor da linha de base.
Eu sei que em modelos mistos, eu poderia incluir uma inclinação aleatória para o tempo, além de uma interceptação aleatória, para explicar o fato de que em alguns estudantes haverá mais mudanças do que em outros. No entanto, estou certo em assumir que não é possível ou significativo incluir o valor da primeira medição como covariável de linha de base (e sua interação com o tempo)? De qualquer forma, não "parece" certo para mim. Mas, por outro lado, me surpreende que não seja possível modelar explicitamente o efeito do valor da linha de base usando um efeito fixo. Devo admitir que estou um pouco confuso com isso. Qualquer ajuda seria muito apreciada.
fonte
Respostas:
Este parece ser um cenário de modelo de crescimento. Suponha que tivéssemos as seguintes variáveis:
occasion
: Tomando valores1
,2
,3
,4
,5
para refletir a ocasião que teste foi tomada,1
sendo o primeiro, ou linha de base.ID
: o identificador de cada participante.score
: a pontuação do teste para este participante nesta ocasião do teste.As interceptações aleatórias
ID
cuidarão das diferentes linhas de base (sujeitas a ter participantes suficientes.Portanto, um modelo linear simples de efeitos mistos para esses dados é (usando a
lme4
sintaxe):score ~ occasion + (1|ID)
ou
score ~ occasion + (occasion|ID)
onde o último permite que a inclinação linear da ocasião varie entre os participantes
No entanto, para o exemplo específico no OP, temos o problema adicional de que a
score
variável é delimitada acima pela pontuação máxima no teste. Para permitir isso, precisamos atender ao crescimento não linear. Isso pode ser alcançado de várias maneiras, sendo a mais simples a adição de termos quadráticos e possivelmente cúbicos ao modelo:score ~ occasion + I(occasion^2) + I(occasion^3) + (1|ID)
Vejamos um exemplo de brinquedo:
Aqui, temos gráficos para 6 participantes, medidos em 5 ocasiões sucessivas, e plotamos os efeitos fixos com a linha preta sólida. Claramente, esse não é um bom modelo para esses dados; portanto, introduzimos um termo quadrático e depois um termo cúbico, depois de centralizar os dados para reduzir a colinearidade:
Aqui vemos que o modelo quadrático é uma melhoria óbvia em relação ao modelo linear, mas não é ideal porque subestima as pontuações da medição final e superestima a da anterior.
O modelo cúbico, por outro lado, parece funcionar muito bem:
Uma abordagem um pouco mais sofisticada é reconhecer a explicidade do limite superior e usar (por exemplo) um modelo de curva de crescimento logístico. Uma maneira de conseguir isso é transformar o resultado em uma proporção (do limite superior), digamos e modelar o logit dessa proporção, como o resultado de um modelo linear de efeitos mistos . Além de reconhecer o limite superior, isso tem a vantagem adicional de modelar a heteroscasticidade nos resíduos dos dados não transformados, uma vez que parece provável que em testes sucessivos (assumindo que os resultados melhorem) haverá menos variação.π π/(1−π)
Colocando isso em prática, como esperado, isso também modela muito bem a tendência geral dos dados:
A seguir, mostramos o modo cúbico e os modelos de crescimento logístico plotados juntos, e vemos muito pouca diferença entre eles, embora, como mencionado acima, possamos preferir o modelo de crescimento logístico devido ao problema da heterocedasticidade:
Uma abordagem mais sofisticada ainda seria o uso de um modelo não linear de efeitos mistos, em que a curva de crescimento logístico é modelada explicitamente, permitindo variações aleatórias nos parâmetros da própria função logística.
fonte