As larguras de silhueta baixas significam que os dados têm pouca estrutura subjacente?

10

Eu sou novo na análise de sequências e fiquei imaginando como você reage se as larguras médias da silhueta (ASW) das análises de cluster das matrizes de dissimilaridade com base na Correspondência Ótima são baixas (em torno de 25). Parece apropriado concluir que há pouca estrutura subjacente que permita que as seqüências sejam agrupadas? Você pode ignorar o ASW baixo com base em outras medidas de qualidade de cluster (colei algumas abaixo)? Ou é provável que as escolhas feitas durante a análise de sequência ou subsequentes análises de cluster possam ser responsáveis ​​pelos baixos números de ASW?

Todas as sugestões serão apreciadas. Obrigado.

Caso seja necessário mais contexto:

Estou examinando 624 seqüências de incompatibilidades de horas de trabalho (ou seja, incompatibilidades entre o número de horas que uma pessoa prefere trabalhar em uma semana e o número de horas em que realmente trabalha) entre pessoas na casa dos 20 anos. Todas as sequências que estou examinando têm um comprimento de 10. Meu objeto de sequência tem cinco estados (M = quer mais horas, S = quer as mesmas horas, F = quer menos horas, O = fora da força de trabalho e U = desempregado )

Não fiz uma contabilidade sistemática de como os resultados ASW variam com diferentes combinações de abordagens. Mesmo assim, experimentei custos indel baixo e médio (0,1 e 0,6 do custo máximo de substituição - me preocupo mais com a ordem dos eventos do que com o tempo deles) e com os diferentes procedimentos de agrupamento (ala, média e pam). Minha impressão geral é que os números ASW permanecem baixos.

Talvez resultados baixos de ASW façam sentido. Eu esperaria que esses estados viessem em uma variedade de ordens diferentes, e os estados podem ser repetidos. A remoção de observações duplicadas apenas reduz o N de 624 para 536. O estudo dos dados revela que há realmente uma boa variedade de sequências e que eu consideraria muito diferentes, por exemplo, pessoas que queriam as mesmas horas o tempo todo, desenvolveram uma incompatibilidade, resolveram uma incompatibilidade e oscilava entre ter e não ter uma incompatibilidade. Talvez a falta de clusters claramente diferenciados não seja a mesma coisa que a falta de variação interessante. Ainda assim, os fracos resultados do cluster parecem me deixar sem uma boa maneira de resumir as seqüências.

Resultados do método de Ward com indel definido em 0,1 do custo de substituição de 2 Essas estatísticas parecem sugerir que uma solução de 6 clusters pode ser boa. O ASW, no entanto, é baixo - pelo menos para soluções que possuem um número razoável de clusters (2 ou 3 são muito poucos).

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08
JeremyR
fonte

Respostas:

11

O ASW é uma medida da coerência de uma solução de cluster. Um alto valor de ASW significa que os clusters são homogêneos (todas as observações estão próximas ao centro do cluster) e que estão bem separados. Segundo Kaufmann e Rousseuw (1990), um valor abaixo de 0,25 significa que os dados não estão estruturados. Entre 0,25 e 0,5, os dados podem ser estruturados, mas também podem ser um artifício. Lembre-se de que esses valores são indicativos e não devem ser usados ​​como um limite de decisão. Esses valores não são definidos teoricamente (não são baseados em algum valor-p), mas são baseados na experiência dos autores. Portanto, de acordo com esses baixos valores de ASW, seus dados parecem não estar estruturados. Se o objetivo da análise de cluster é apenas descritivo, você pode argumentar que ela revela alguns (mas apenas alguns) dos padrões mais salientes. Contudo,

Você também pode tentar ver os valores ASW "por cluster" (isso é fornecido pela função wcClusterQuality). Talvez alguns de seus clusters estejam bem definidos e outros possam ser "espúrios" (ASW <0), resultando em um baixo valor geral de ASW.

Você pode tentar usar estratégias de autoinicialização, o que deve lhe dar uma dica melhor. Em R, a função clusterbootno pacote fpcpode ser usada para esse fim (veja a página de ajuda). No entanto, ele não funciona com dados ponderados. Se seus dados não forem ponderados, acho que vale a pena tentar.

Por fim, convém examinar mais de perto seus dados e sua categorização. Talvez suas categorias sejam muito instáveis ​​ou mal definidas. No entanto, não parece ser o caso aqui.

Como você disse, "falta de clusters claramente diferenciados não é a mesma coisa que falta de variação interessante". Existem outros métodos para analisar a variabilidade de suas seqüências, como a análise de discrepâncias. Esses métodos permitem estudar os links entre sequências e fatores explicativos. Você pode, por exemplo, tentar construir árvores de regressão de sequência (função "seqtree" no pacote TraMineR).

Matthias Studer
fonte