Eu sou novo na análise de sequências e fiquei imaginando como você reage se as larguras médias da silhueta (ASW) das análises de cluster das matrizes de dissimilaridade com base na Correspondência Ótima são baixas (em torno de 25). Parece apropriado concluir que há pouca estrutura subjacente que permita que as seqüências sejam agrupadas? Você pode ignorar o ASW baixo com base em outras medidas de qualidade de cluster (colei algumas abaixo)? Ou é provável que as escolhas feitas durante a análise de sequência ou subsequentes análises de cluster possam ser responsáveis pelos baixos números de ASW?
Todas as sugestões serão apreciadas. Obrigado.
Caso seja necessário mais contexto:
Estou examinando 624 seqüências de incompatibilidades de horas de trabalho (ou seja, incompatibilidades entre o número de horas que uma pessoa prefere trabalhar em uma semana e o número de horas em que realmente trabalha) entre pessoas na casa dos 20 anos. Todas as sequências que estou examinando têm um comprimento de 10. Meu objeto de sequência tem cinco estados (M = quer mais horas, S = quer as mesmas horas, F = quer menos horas, O = fora da força de trabalho e U = desempregado )
Não fiz uma contabilidade sistemática de como os resultados ASW variam com diferentes combinações de abordagens. Mesmo assim, experimentei custos indel baixo e médio (0,1 e 0,6 do custo máximo de substituição - me preocupo mais com a ordem dos eventos do que com o tempo deles) e com os diferentes procedimentos de agrupamento (ala, média e pam). Minha impressão geral é que os números ASW permanecem baixos.
Talvez resultados baixos de ASW façam sentido. Eu esperaria que esses estados viessem em uma variedade de ordens diferentes, e os estados podem ser repetidos. A remoção de observações duplicadas apenas reduz o N de 624 para 536. O estudo dos dados revela que há realmente uma boa variedade de sequências e que eu consideraria muito diferentes, por exemplo, pessoas que queriam as mesmas horas o tempo todo, desenvolveram uma incompatibilidade, resolveram uma incompatibilidade e oscilava entre ter e não ter uma incompatibilidade. Talvez a falta de clusters claramente diferenciados não seja a mesma coisa que a falta de variação interessante. Ainda assim, os fracos resultados do cluster parecem me deixar sem uma boa maneira de resumir as seqüências.
Resultados do método de Ward com indel definido em 0,1 do custo de substituição de 2 Essas estatísticas parecem sugerir que uma solução de 6 clusters pode ser boa. O ASW, no entanto, é baixo - pelo menos para soluções que possuem um número razoável de clusters (2 ou 3 são muito poucos).
PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC
cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4 0.54 0.74 0.71 0.25 0.25 88.66 0.30 203.72 0.50 0.14
cluster5 0.59 0.83 0.79 0.25 0.25 75.85 0.33 183.21 0.54 0.09
cluster6 0.59 0.85 0.82 0.24 0.25 66.94 0.35 164.51 0.57 0.08
cluster7 0.47 0.79 0.75 0.18 0.19 64.09 0.38 154.47 0.60 0.12
cluster8 0.47 0.81 0.77 0.20 0.21 59.47 0.40 152.36 0.63 0.11
cluster9 0.48 0.84 0.80 0.19 0.21 56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21 53.24 0.44 140.18 0.67 0.08
fonte