Contexto
Quero definir o cenário antes de expandir um pouco a questão.
Tenho dados longitudinais, medições feitas em indivíduos aproximadamente a cada 3 meses, o resultado primário é numérico (como em contínuo a 1dp) no intervalo de 5 a 14, com o volume (de todos os pontos de dados) entre 7 e 10. Se eu fizer uma gráfico de espaguete (com a idade no eixo x e uma linha para cada pessoa) é obviamente uma bagunça, já que tenho mais de 1.500 indivíduos, mas há um caminho claro em direção a valores mais altos com o aumento da idade (e isso é conhecido).
A questão mais ampla: O que gostaríamos de fazer é primeiro identificar grupos de tendências (aqueles que começam alto e permanecem altos, aqueles que começam baixos e permanecem baixos, aqueles que começam baixos e aumentam para altos etc.) e então podemos observe os fatores individuais associados à associação ao 'grupo de tendências'.
Minha pergunta aqui é especificamente referente à primeira parte, o agrupamento por tendência.
Questão
- Como podemos agrupar trajetórias longitudinais individuais?
- Que software seria adequado para implementar isso?
Examinei o Proc Traj no SAS e M-Plus sugerido por um colega, no qual estou analisando, mas gostaria de saber o que os outros pensam sobre isso.
fonte
kml
pacote - que parece fornecer a funcionalidade necessária. O artigo no JoSS descreve em detalhes. Tambémkml3d
&kmlShape
possam ser de interesse.Respostas:
Eu usei o Mfuzz no R para agrupar conjuntos de dados de microarrays de curso temporal. O Mfuzz usa "soft-clustering". Basicamente, os indivíduos podem aparecer em mais de um grupo.
Como @Andy aponta no comentário, o documento original usa dados da CTN. No entanto, suspeito que funcione bem para seus dados discretos. Especialmente porque você está apenas explorando o conjunto de dados. Aqui está um exemplo rápido em R:
Dá a seguinte plotagem:
fonte
Eu esperaria que haja um pacote MPLUS para fazer o que você precisa. Há um artigo na Psychometrika sobre quase exatamente esse assunto
springerlink.com/content/25r110007g417187
exceto que os dados são binários e as trajetórias são trajetórias de probabilidade. Os autores usam a análise de classe latente (implementada usando um modelo de mistura finita penalizada) para agrupar trajetórias. Também sei que o primeiro autor escreveu alguns outros artigos há cerca de 10 anos com Bengt Muthen (criador do MPLUS) sobre análise de classes latentes em ambientes semelhantes (com trajetórias). Por exemplo,
http://onlinelibrary.wiley.com/doi/10.1111/j.0006-341X.1999.00463.x/abstract
soa muito semelhante ao que você está falando, exceto que o resultado é binário. O caso contínuo é muito mais simples, portanto, eu faria uma pesquisa de literatura ao contrário (por exemplo, observe os artigos que esses artigos fazem referência) para encontrar algo que corresponda ao que você descreveu com mais precisão.
Para saber mais, você pode perguntar diretamente aos proprietários do MPLUS qual pacote você precisa usar para fazer o que você precisa. Eles geralmente são muito rápidos em responder e são muito úteis:
http://www.statmodel.com/cgi-bin/discus/discus.cgi
fonte