Pressupostos da análise de cluster

16

Desculpas pela pergunta rudimentar, sou novo nesta forma de análise e tenho uma compreensão muito limitada dos princípios até agora.

Eu estava pensando se muitas das suposições paramétricas para testes multivariados / univariados se aplicam à análise de cluster? Muitas das fontes de informação que li sobre a análise de cluster não especificam nenhuma hipótese.

Estou particularmente interessado na suposição de independência das observações. Entendo que a violação dessa suposição (na ANOVA e MAVOVA, por exemplo) é séria porque influencia as estimativas de erro. Pela minha leitura até agora, parece que a análise de cluster é amplamente uma técnica descritiva (que envolve apenas inferência estatística em certos casos especificados). Por conseguinte, são necessárias suposições como independência e dados normalmente distribuídos?

Quaisquer recomendações de textos que discutam esse assunto serão muito apreciadas. Muito Obrigado.

Kyle Brown
fonte

Respostas:

7

Bem, técnicas de agrupamento não se limitam a métodos baseados em distância , onde buscamos grupos de unidades estatísticas que são incomumente próximas umas das outras, em um sentido geométrico. Há também uma variedade de técnicas que dependem da densidade (os clusters são vistos como "regiões" no espaço de recursos) ou na distribuição de probabilidade .

O último caso também é conhecido como cluster baseado em modelo ; Os psicometristas usam o termo Análise de perfil latente para denotar esse caso específico do Modelo de Mistura Finita , onde assumimos que a população é composta por diferentes grupos não observados ou classes latentes e que a densidade conjunta de todas as variáveis ​​manifestas é uma mistura dessa classe. densidade específica. Boa implementação está disponível no pacote Mclust ou no software Mplus . Diferentes matrizes de covariância invariantes à classe podem ser usadas (na verdade, o Mclust usa o critério BIC para selecionar o ideal enquanto varia o número de clusters).

O modelo de classe latente padrão também pressupõe que os dados observados provêm de uma mistura de g distribuições multinomiais multivariadas. Uma boa visão geral está disponível na análise de cluster baseada em modelo: a Defense , de Gilles Celeux.

Como esses métodos se baseiam em suposições distributivas, isso também possibilita o uso de testes formais ou índices de qualidade de ajuste para decidir sobre o número de clusters ou classes, o que continua sendo um problema difícil na análise de clusters à distância, mas consulte os seguintes artigos que discutiram esse problema:

  1. Handl, J., Knowles, J. e Kell, DB (2005). Validação de cluster computacional na análise de dados pós-genômicos. Bioinformática , 21 (15) , 3201-3212.
  2. Hennig, C. (2007) Avaliação em cluster da estabilidade de cluster. Estatística Computacional e Análise de Dados , 52 , 258-271.
  3. Hennig, C. (2008) Ponto de dissolução e robustez do isolamento: critérios de robustez para métodos gerais de análise de agrupamentos. Journal of Multivariate Analysis , 99 , 1154-1176.
chl
fonte
3

Há uma variedade muito ampla de métodos de agrupamento, que são exploratórios por natureza, e não creio que nenhum deles, seja hierárquico ou baseado em partições, se baseie no tipo de suposições que se deve atender para analisar a variação.

Olhando a documentação [MV] no Stata para responder sua pergunta, achei esta citação divertida na página 85:

Embora alguns tenham dito que existem tantos métodos de análise de cluster quanto pessoas executando análise de cluster. Este é um eufemismo total! Existem infinitamente mais maneiras de executar uma análise de cluster do que as pessoas que as executam.

Nesse contexto, duvido que haja alguma suposição aplicada ao método de clustering. O restante do texto apenas estabelece como regra geral que você precisa de alguma forma de "medida de dissimilaridade", que nem precisa estar a uma distância métrica, para criar agrupamentos.

Há uma exceção, porém, que é quando você agrupa observações como parte de uma análise pós-estimativa. No Stata, o vcecomando vem com o seguinte aviso, na página 86 da mesma fonte:

Se você estiver familiarizado com a grande variedade de comandos de estimativa do Stata, tenha cuidado para distinguir entre a análise de cluster (o comando cluster) e a opção vce (cluster clustvar) permitida com muitos comandos de estimativa. A análise de cluster localiza grupos nos dados. A opção vce (cluster clustvar) permitida com vários comandos de estimativa indica que as observações são independentes nos grupos definidos pela opção, mas não necessariamente independentes nesses grupos. Uma variável de agrupamento produzida pelo comando cluster raramente satisfaz a suposição por trás do uso da opção vce (cluster clustvar).

Com base nisso, eu assumiria que observações independentes não são necessárias fora desse caso específico. Intuitivamente, eu acrescentaria que a análise de cluster pode até ser usada com o objetivo preciso de explorar até que ponto as observações são independentes ou não.

Terminarei mencionando que, em página 356 da Estatística com Stata , Lawrence Hamilton menciona variáveis ​​padronizadas como um aspecto "essencial" da análise de agrupamentos, embora ele não tenha se aprofundado mais sobre o assunto.

Pe.
fonte
2

A análise espacial de agrupamentos usa observações geograficamente referenciadas e é um subconjunto da análise de agrupamentos que não se limita à análise exploratória.

Exemplo 1

Pode ser usado para criar distritos eleitorais justos.

Exemplo 2

As medidas de autocorrelação espacial local são usadas no método de agrupamento AMOEBA . Aldstadt e Getis usam os clusters resultantes para criar uma matriz de pesos espaciais que pode ser especificada em regressões espaciais para testar uma hipótese.

Veja Aldstadt, Jared e Arthur Getis (2006) “Usando a AMOEBA para criar uma matriz de pesos espaciais e identificar grupos espaciais.” Análise Geográfica 38 (4) 327-343

Exemplo 3

A análise de agrupamentos baseada em regiões de crescimento aleatório, dado um conjunto de critérios, poderia ser usada como um método probabilístico para indicar injustiça no design de zonas institucionais, como zonas de frequência escolar ou distritos eleitorais.

b_dev
fonte
1

A análise de cluster não envolve o teste de hipóteses em si, mas é realmente apenas uma coleção de algoritmos de similaridade diferentes para análise exploratória. Você pode forçar um pouco o teste de hipóteses, mas os resultados geralmente são inconsistentes, pois as alterações do cluster são muito sensíveis às alterações nos parâmetros.

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_introclus_sect010.htm

Ralph Winters
fonte