Modelagem de dados longitudinais em que o efeito do tempo varia em forma funcional entre indivíduos

32

Contexto :

Imagine que você teve um estudo longitudinal que mediu uma variável dependente (DV) uma vez por semana durante 20 semanas em 200 participantes. Embora eu esteja interessado em geral, os DVs típicos em que penso incluem o desempenho no trabalho após contratação ou várias medidas de bem-estar após uma intervenção em psicologia clínica.

Eu sei que a modelagem multinível pode ser usada para modelar a relação entre tempo e DV. Você também pode permitir que coeficientes (por exemplo, interceptações, declives etc.) variem entre indivíduos e estimam os valores específicos para os participantes. Mas e se, ao inspecionar visualmente os dados, você descobrir que a relação entre o tempo e o DV é uma das seguintes:

  • diferente na forma funcional (talvez alguns sejam lineares e outros sejam exponenciais ou alguns tenham uma descontinuidade)
  • diferente na variação do erro (alguns indivíduos são mais voláteis de um ponto para o outro)

Perguntas :

  • Qual seria uma boa maneira de abordar dados de modelagem como esse?
  • Especificamente, quais abordagens são boas para identificar diferentes tipos de relacionamentos e categorizar os indivíduos com relação ao seu tipo?
  • Quais implementações existem no R para essas análises?
  • Existem referências sobre como fazer isso: livro ou aplicativo real?
Jeromy Anglim
fonte

Respostas:

20

Eu sugeriria olhar para as três direções a seguir:

  • agrupamento longitudinal : isso não é supervisionado, mas você usa a abordagem k-means, baseando-se no critério de Calinsky para avaliar a qualidade do particionamento (pacote kml e referências incluídas na ajuda on-line); então, basicamente, não ajudará a identificar a forma específica para o curso individual, mas apenas separará o perfil de evolução homogêneo
  • algum tipo de curva de crescimento latente responsável pela heterocedasticidade: meu melhor palpite seria examinar as extensas referências sobre o software MPlus , especialmente as perguntas frequentes e as correspondências. Também ouvi falar do modelo heterocedástico multiplicativo de efeito aleatório (tente pesquisar essas palavras-chave). Acho esses papéis ( 1 , 2 ) interessantes, mas não os olhei em detalhes. Vou atualizar com referências sobre avaliação neuropsicológica uma vez de volta ao meu consultório.
  • PCA funcional ( pacote fpca ), mas pode valer a pena examinar análise de dados funcionais

Outras referências (apenas navegadas em tempo real):

chl
fonte
1
Obrigado. A ideia de usar um procedimento de agrupamento me ocorreu. Imagino que o desafio seria capturar e ponderar adequadamente os possíveis recursos da curva no nível individual de uma maneira teoricamente significativa. Vou dar uma olhada para ver como funciona em kml.
Jeromy Anglim
1
Bem, funciona muito bem, embora a interface seja péssima (e eu conheço o cara que a constrói :) - eu a usei há dois meses para separar grupos clínicos com base em perfis individuais em medidas de desenvolvimento (Brunet-Lézine).
chl
1
Aqui está outra referência principal para o FDA: psych.mcgill.ca/misc/fda #
Mike Lawrence
1
Eu encontrei esta introdução ao link do FDA por Ramsay (2008), particularmente acessível gbi.agrsci.dk/~shd/public/FDA2008/FDA_Sage.pdf
Jeromy Anglim
6

Parece-me que os modelos de mistura de crescimento podem ter potencial para permitir que você examine sua variação de erro. ( PDF aqui). (Não sei ao certo o que são modelos heterocedásticos multiplicativos, mas definitivamente terei que vê-los).

Modelos de trajetória baseados em grupos latentes tornaram-se realmente populares ultimamente na criminologia. Mas muitas pessoas simplesmente dão como certo que os grupos realmente existem, e algumas pesquisas astutas apontaram que você encontrará grupos mesmo em dados aleatórios. Observe também que a abordagem de modelagem baseada em grupo de Nagin não permite que você avalie seu erro (e honestamente nunca vi um modelo que se parecesse com uma descontinuidade).

Embora fosse difícil com 20 pontos no tempo, para fins exploratórios, a criação de heurísticas simples para identificar padrões pode ser útil (por exemplo, sempre baixo ou sempre alto, coeficiente de variação). Estou visualizando sparklines em uma planilha ou em gráficos de coordenadas paralelas, mas duvido que sejam úteis (honestamente, nunca vi um gráfico de coordenadas paralelas que seja muito esclarecedor).

Boa sorte

Andy W
fonte
@chl, não há problema, obrigado por todos os recursos listados aqui.
Andy W
Bom argumento sobre grupos latentes. Eu já vi várias aplicações de análise de classe latente e análise de cluster, onde parece estar apenas criando uma variável contínua em categorias tão baixas quanto altas ( jeromyanglim.blogspot.com/2009/09/… ). No entanto, eu tenho alguns dados longitudinais de nível individual que visualmente parecem provenientes de processos de geração de dados categoricamente distintos (por exemplo, sempre altos, sempre baixos, crescentes gradualmente, crescimentos pouco bruscos etc.) e dentro de categorias há uma variação mais contínua dos parâmetros.
Jeromy Anglim 19/09/10
@ Jeremy, não acho que o trabalho que citei desencorajaria as pessoas a usar esses métodos para identificar grupos latentes. Eu diria que o objetivo do trabalho é que você não pode usar esses métodos para inferir apenas a existência de grupos, porque você sempre encontrará grupos, mesmo em dados aleatórios. Cabe a uma interpretação mais subjetiva se os grupos encontrados são reais ou são simplesmente artefatos do método. Você pode identificar algumas teorias lógicas que geram esses processos e, em seguida, ver se os grupos identificados se encaixam nessas teorias.
Andy W
5

Quatro anos depois de fazer essa pergunta, aprendi algumas coisas, então talvez deva acrescentar algumas idéias.

Penso que a modelagem hierárquica bayesiana fornece uma abordagem flexível para esse problema.

Software : Ferramentas como jags, stan, WinBugs etc. potencialmente combinadas com seus respectivos pacotes de interface R (por exemplo, rjags, rstan) facilitam a especificação desses modelos.

Erro variável dentro da pessoa: modelos bayesianos facilitam a especificação da variação do erro dentro da pessoa como um fator aleatório que varia entre as pessoas.

yi=1,...,nj=1,...J

yijN(μi,σi2)
μi=γ
γN(μγ,σγ2)
σiGamma(α,β)

Assim, o desvio padrão de cada pessoa pode ser modelado como uma distribuição gama. Descobri que este é um parâmetro importante em muitos domínios psicológicos, onde as pessoas variam em quanto variam ao longo do tempo.

Classes latentes de curvas: ainda não explorei essa idéia, mas é relativamente simples especificar duas ou mais funções possíveis de geração de dados para cada indivíduo e deixar o modelo bayesiano escolher o modelo mais provável para um determinado indivíduo. Assim, você normalmente obteria probabilidades posteriores para cada indivíduo em relação a qual forma funcional descreve os dados dos indivíduos.

Como esboço de uma ideia para um modelo, você pode ter algo como o seguinte:

yijN(μij,σ2)
μij=γiλij(1)+(1γi)λij(2)
λij(1)=θ1i(1)+θ2i(1)exp(θ3i(1))
λij(2)=θ1i(2)+θ2i(2)xij+θ3i(2)xij2
γi=Bernoulli(πi)

xijλij(1)λij(2)πiλij(1)

Jeromy Anglim
fonte
Eu também tenho mudado para a estrutura Bayesiana e tenho lido sobre o uso de Processos Gaussianos para análise de séries temporais de formas de função incertas. Ainda não está claro como ela pode ser aplicada ao caso de dados hierárquica (ver minha consulta sem resposta aqui: groups.google.com/d/msg/stan-users/yjDWtMhxQQE/2TiYevy0ZwUJ )
Mike Lawrence