Estou usando o cluster hierárquico para analisar dados de séries temporais. Meu código é implementado usando a função MathematicaDirectAgglomerate[...]
, que gera clusters hierárquicos com as seguintes entradas:
uma matriz de distância D
o nome do método usado para determinar a ligação entre cluster.
Eu calculei a matriz de distância D usando a distância de Manhattan:
onde e n ≈ 150 é o número de pontos de dados em série meus tempo.
Minha pergunta é: está tudo bem em usar a ligação inter-cluster de Ward com uma matriz de distância de Manhattan? Algumas fontes sugerem que a ligação de Ward deve ser usada apenas com a distância euclidiana.
Observe que DirectAgglomerate[...]
calcula a ligação de Ward usando apenas a matriz de distância, não as observações originais. Infelizmente, não tenho certeza de como o Mathematica modifica o algoritmo original de Ward, que (pelo meu entendimento) funcionou minimizando a soma dos quadrados dos erros das observações, calculada com relação à média do cluster. Por exemplo, para um cluster consiste em um vetor de observações univariadas, Ward formulou a soma dos quadrados dos erros como:
(Outras ferramentas de software, como Matlab e R, também implementam o cluster de Ward usando apenas uma matriz de distância, para que a questão não seja específica do Mathematica.)
fonte
agnes
do pacote de cluster .Respostas:
O algoritmo de agrupamento de Ward é um método hierárquico de agrupamento que minimiza um critério de 'inércia' a cada etapa. Essa inércia quantifica a soma dos resíduos quadráticos entre o sinal reduzido e o sinal inicial: é uma medida da variação do erro em um sensor l2 (euclidiano). Na verdade, você até menciona isso na sua pergunta. É por isso que, acredito, não faz sentido aplicá-lo a uma matriz de distância que não é uma distância euclidiana.
Por outro lado, uma ligação média ou um cluster hierárquico de ligação única seria perfeitamente adequado para outras distâncias.
fonte
Não consigo pensar em nenhum motivo pelo qual Ward deva favorecer qualquer métrica. O método de Ward é apenas outra opção para decidir quais clusters serão fundidos a seguir durante a aglomeração. Isso é obtido encontrando os dois grupos cuja fusão minimizará um certo erro ( fonte exemplar da fórmula ).
Portanto, ele se baseia em dois conceitos:
Portanto: desde que as propriedades da métrica escolhida (como rotação, translação ou invariância da escala) atendam às suas necessidades (e a métrica se ajuste à maneira como a média do cluster é calculada), não vejo motivo para não usá-la .
Eu suspeito que a maioria das pessoas sugere a métrica euclidiana porque eles
fonte
fonte