Como interpretar o dendograma de uma análise de cluster hierárquica

25

Considere o exemplo R abaixo:

plot( hclust(dist(USArrests), "ave") )
  1. O que exatamente significa o eixo y "Altura"?

  2. Olhando para a Carolina do Norte e Califórnia (um pouco à esquerda). A Califórnia é "mais próxima" da Carolina do Norte do que o Arizona? Posso fazer essa interpretação?

  3. O Havaí (à direita) entra no cluster bastante tarde. Eu posso ver isso porque é "mais alto" que outros estados. Em geral, como posso interpretar o fato de que os rótulos são "superiores" ou "inferiores" no dendrograma corretamente?

insira a descrição da imagem aqui

Ric
fonte
11
Respostas em ?hclust.
Scortchi - Restabelece Monica
3
As posições dos rótulos não têm significado. Se você não entende o eixo y, é estranho que você tenha a impressão de entender bem o agrupamento hierárquico.
Stéphane Laurent
11
Lembre-se também de que o agrupamento hierárquico geralmente não fornece uma classificação hierárquica (em árvore) . O método médio (que você usou) não, em particular. Veja o último ponto aqui .
precisa saber é o seguinte
11
A posição de um rótulo tem um pouco de significado. Quanto mais alta a posição, mais tarde o objeto se liga a outras pessoas e, portanto, mais parecido com um objeto externo ou disperso.
ttnphns
3
@ StéphaneLaurent Você está certo que isso soa como uma contradição. Por outro lado, ainda acho que sou capaz de interceptar um dendograma de dados que conheço bem. Além disso, a posição dos rótulos tem pouco significado, como ttnphns e Peter Flom apontam. Finalmente, seu comentário não foi construtivo para mim.
Ric

Respostas:

17

1) O eixo y é uma medida de proximidade de pontos de dados individuais ou de clusters.

2) Califórnia e Arizona estão igualmente distantes da Flórida, porque CA e AZ estão em um cluster antes de se unir a FL.

3) O Havaí se junta bastante tarde; por volta de 50. Isso significa que o cluster ao qual ele se une fica mais próximo antes do HI se unir. Mas não muito mais perto. Observe que o cluster ao qual ele se une (o da direita) se forma apenas aos 45 anos. O fato de o HI ingressar em um cluster mais tarde do que qualquer outro estado significa simplesmente que (usando a métrica que você selecionou) o HI não está nem perto disso. qualquer estado particular.

Peter Flom - Restabelece Monica
fonte
Assim, "height" me dá uma idéia do valor do critério de link (como aqui ) - no meu caso, a distância média dos clusters entre si. Isto está certo? Obrigado!
Ric
O eixo y não é uma medida de des semelhança entre grupos e pontos? Ou seja negativa a proximidade, porque é maior quando as coisas são os mais desiguais, não o contrário @PeterFlom
Felipe Almeida
21

Eu tive as mesmas perguntas quando tentei aprender cluster hierárquico e achei o pdf a seguir muito útil.

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

Mesmo que Richard já tenha clareza sobre o procedimento, outros que pesquisam a questão provavelmente podem usar o pdf, seu esp muito simples e claro para aqueles que não possuem conhecimentos matemáticos suficientes.

Srmsbrmnm
fonte
3
Só quero reiterar que o pdf vinculado é muito bom.
Heisenberg
Referência: Klimberg, Ronald K. e BD McCullough. 2013. “Chapter 7: Hierarchical Cluster Analysis.” Em Fundamentos da análise preditiva com o JMP. Cary, NC: Instituto SAS.
jay.sf
1

O eixo horizontal representa os clusters. A escala vertical no dendrograma representa a distância ou dissimilaridade. Cada união (fusão) de dois grupos é representada no diagrama pela divisão de uma linha vertical em duas linhas verticais. A posição vertical da divisão, mostrada por uma barra curta, fornece a distância (dissimilaridade) entre os dois grupos.

Babaasa
fonte