Considere o exemplo R abaixo:
plot( hclust(dist(USArrests), "ave") )
O que exatamente significa o eixo y "Altura"?
Olhando para a Carolina do Norte e Califórnia (um pouco à esquerda). A Califórnia é "mais próxima" da Carolina do Norte do que o Arizona? Posso fazer essa interpretação?
O Havaí (à direita) entra no cluster bastante tarde. Eu posso ver isso porque é "mais alto" que outros estados. Em geral, como posso interpretar o fato de que os rótulos são "superiores" ou "inferiores" no dendrograma corretamente?
?hclust
.Respostas:
1) O eixo y é uma medida de proximidade de pontos de dados individuais ou de clusters.
2) Califórnia e Arizona estão igualmente distantes da Flórida, porque CA e AZ estão em um cluster antes de se unir a FL.
3) O Havaí se junta bastante tarde; por volta de 50. Isso significa que o cluster ao qual ele se une fica mais próximo antes do HI se unir. Mas não muito mais perto. Observe que o cluster ao qual ele se une (o da direita) se forma apenas aos 45 anos. O fato de o HI ingressar em um cluster mais tarde do que qualquer outro estado significa simplesmente que (usando a métrica que você selecionou) o HI não está nem perto disso. qualquer estado particular.
fonte
Eu tive as mesmas perguntas quando tentei aprender cluster hierárquico e achei o pdf a seguir muito útil.
http://www.econ.upf.edu/~michael/stanford/maeb7.pdf
Mesmo que Richard já tenha clareza sobre o procedimento, outros que pesquisam a questão provavelmente podem usar o pdf, seu esp muito simples e claro para aqueles que não possuem conhecimentos matemáticos suficientes.
fonte
O eixo horizontal representa os clusters. A escala vertical no dendrograma representa a distância ou dissimilaridade. Cada união (fusão) de dois grupos é representada no diagrama pela divisão de uma linha vertical em duas linhas verticais. A posição vertical da divisão, mostrada por uma barra curta, fornece a distância (dissimilaridade) entre os dois grupos.
fonte