Eu tenho um monte de variáveis que contêm dados longitudinais do dia 0 ao dia 7. Estou procurando uma abordagem de cluster apropriada que possa agrupar essas variáveis longitudinais (não casos) em grupos diferentes. Tentei analisar esses dados separadamente por tempo, mas o resultado foi bastante difícil de ser razoavelmente explicado.
Eu investiguei a disponibilidade de um procedimento SAS PROC SIMILARITY
porque há um exemplo em seu site ; no entanto, acho que não é o caminho certo. Alguns estudos anteriores usaram análise fatorial exploratória em cada momento, mas essa também não é uma opção em meu estudo devido a resultados irracionais.
Esperamos que algumas idéias possam ser fornecidas aqui, e um programa compilado, como SAS ou R, esteja disponível para processamento. Qualquer sugestão é apreciada !!
Aqui está um pequeno exemplo (desculpe a posição inconsistente entre dados e nomes de variáveis):
id time V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
2 0 8 7 3 7 6 6 0 0 5 2
2 1 3 5 2 6 5 5 1 1 4 2
2 2 2 3 2 4 4 2 0 0 2 2
2 3 6 4 2 5 3 2 1 2 3 3
2 4 5 3 4 4 3 3 4 3 3 3
2 5 6 4 5 5 6 3 3 2 2 2
2 6 7 5 2 4 4 3 3 4 4 5
2 7 7 7 2 6 4 4 0 0 4 3
4 0 10 7 0 2 2 6 7 7 0 9
4 1 8 7 0 0 0 9 3 3 7 8
4 2 8 7 0 0 0 9 3 3 7 8
4 3 8 7 0 0 0 9 3 3 7 8
4 4 5 7 0 0 0 9 3 3 7 8
4 5 5 7 0 0 0 9 3 3 7 8
4 6 5 7 0 0 0 9 3 3 7 8
4 7 5 7 0 0 0 9 3 3 7 8
5 0 9 6 1 3 2 2 2 3 3 5
5 1 7 3 1 3 1 3 2 2 1 3
5 2 6 4 0 4 2 4 2 1 2 4
5 3 6 3 2 3 2 3 3 1 3 4
5 4 8 6 0 5 3 3 2 2 3 4
5 5 9 6 0 4 3 3 2 3 2 5
5 6 8 6 0 4 3 3 2 3 2 5
5 7 8 6 0 4 3 3 2 3 2 5
fonte
Respostas:
No
Hmisc
pacote R , consulte o arquivo de ajuda dacurveRep
função, que significa "curvas representativas".curveRep
agrupamentos em formas de curvas, locais e padrões de pontos de tempo ausentes.fonte
x[id==i] <- if(i %% 2) runif(nc[i]) else runif(nc[i], c(.25, .75))
Não tenho certeza de que é isso que você está procurando, mas o pacote
kml
em R usa k-means para agrupar seqüências de medidas repetidas. Aqui está um link para a página do pacote e para o artigo (infelizmente, está fechado). Só funciona bem se você tiver um conjunto de dados bastante pequeno (algumas centenas de seqüências).Aqui está uma versão não bloqueada do artigo (sem problemas de referência): http://christophe.genolini.free.fr/recherche/aTelecharger/genolini2011.pdf
fonte
Portanto, você tem variáveis p medidas cada t vezes nos mesmos n indivíduos. Uma maneira de proceder é computar as matrizes de (des) similaridade de pXp e aplicar a escala multidimensional do modelo INDSCAL. Ele fornecerá dois mapas de baixa dimensão (digamos, de 2 dimensões). O primeiro mapa mostra as coordenadas das variáveis p no espaço das dimensões e reflete os agrupamentos entre elas, se houver alguma. O segundo mapa mostra pesos (isto é, importância ou saliência) das dimensões em cada matriz de t .
fonte