Um dos maiores problemas com a análise de cluster é que podemos ter que tirar conclusões diferentes quando baseamos nos diferentes métodos de cluster usados (incluindo diferentes métodos de ligação no cluster hierárquico).
Gostaria de saber sua opinião sobre isso - qual método você selecionará e como. Pode-se dizer "o melhor método de agrupamento é o que lhe dá a resposta certa"; mas posso questionar em resposta que a análise de cluster deve ser uma técnica não supervisionada - então como sei qual método ou ligação é a resposta certa?
Em geral: um cluster é por si só robusto o suficiente para se confiar? Ou precisamos de um segundo método e obter um resultado compartilhado com base em ambos?
Minha pergunta não é apenas sobre possíveis maneiras de validar / avaliar o desempenho de cluster, mas é mais ampla - em que base selecionamos / preferimos um método / algoritmo de cluster em detrimento de outro. Além disso, existem avisos comuns que devemos procurar ao selecionar um método para agrupar nossos dados?
Eu sei que é uma pergunta muito geral e muito difícil de responder. Gostaria apenas de saber se você tem algum comentário, conselho ou sugestão para aprender mais sobre isso.
Respostas:
Frequentemente, eles dizem que não há outra técnica analítica tão fortemente do tipo "como você semeia, deve cortar", como é a análise de agrupamentos.
Eu posso imaginar várias dimensões ou aspectos da "correção" deste ou daquele método de agrupamento :
Metáfora de cluster . "Eu preferi esse método porque ele constitui clusters (ou de tal maneira) que atendem ao meu conceito de cluster em meu projeto em particular" . Cada algoritmo ou subalgoritmo / método de agrupamento implica sua estrutura / compilação / forma correspondente de um cluster. Em relação aos métodos hierárquicos, observei isso em um dos pontos aqui e também aqui. Ou seja, alguns métodos fornecem clusters que são prototipicamente "tipos", outros dão "círculos [por interesse]", ainda outras "plataformas [políticas]", "classes", "cadeias" etc. etc. Selecione o método que a metáfora do cluster combina com você. Por exemplo, se eu vejo meus segmentos de clientes como tipos - formas mais ou menos esféricas com compactação no meio, escolherei o método de ligação de Ward ou meios K, mas nunca o método de ligação único, claramente. Se eu precisar de um ponto representativo focal, eu poderia usar o método medóide. Se eu precisar selecionar pontos para eles serem representantes centrais e periféricos, eu poderia usar a abordagem DBSCAN.
Suposições de dados / método . "Preferi esse método porque minha natureza ou formato dos dados predispõe a ele" . Este ponto importante e vasto também é mencionado no meu link acima. Diferentes algoritmos / métodos podem exigir diferentes tipos de dados para eles ou diferentes medidas de proximidade a serem aplicadas aos dados e vice-versa, dados diferentes podem exigir métodos diferentes. Existem métodos para quantitativos e métodos para dados qualitativos. A mistura de características quantitativas e qualitativas reduz drasticamente o escopo de escolha entre os métodos. Ward ou K-significabaseiam-se - explícita ou implicitamente - apenas na medida da distância euclidiana (quadrada) e não na medida arbitrária. Os dados binários podem exigir medidas especiais de similaridade que, por sua vez, questionarão fortemente o uso de alguns métodos, por exemplo, Ward's ou K-means, para eles. Big data pode precisar de algoritmos especiais ou implementações especiais.
Validade externa . "Eu preferi esse método porque ele me dava clusters que diferem em seus antecedentes ou clusters que correspondem aos verdadeiros que eu conheço" . Se uma partição de cluster apresenta clusters que são claramente diferentes em algumas características importantes de background (por exemplo, não participaram da análise de cluster), é um ativo para o método que produziu a partição. Use qualquer análise que se aplique para verificar a diferença; também existem vários critérios de cluster externo úteis(Rand, F-measure, etc etc). Outra variante do caso de validação externa é quando, de alguma forma, você conhece os verdadeiros clusters em seus dados (conhece a "verdade básica"), como quando você mesmo gerou os clusters. Então, com que precisão o seu método de clustering é capaz de descobrir os clusters reais é a medida da validade externa.
Validade cruzada . "Preferi esse método porque está fornecendo clusters muito semelhantes em amostras equivalentes dos dados ou extrapolando bem para essas amostras" . Existem várias abordagens e seus híbridos, algumas mais viáveis com alguns métodos de agrupamento, enquanto outras com outros métodos. Duas abordagens principais são verificação de estabilidade e generalizaçãoVerifica. Verificando a estabilidade de um método de agrupamento, dividimos ou reamostramos aleatoriamente os dados em conjuntos parcialmente interceptados ou totalmente separados e fazemos o agrupamento em cada um; em seguida, combina e compara as soluções com alguma característica emergente do cluster (por exemplo, o local de tendência central de um cluster) se é estável entre os conjuntos. Verificar a generalização implica fazer cluster em um conjunto de trens e, em seguida, usar sua característica ou regra emergente de cluster para atribuir objetos a um conjunto de testes, além de fazer cluster no conjunto de testes. As participações no resultado da atribuição e no resultado do cluster dos objetos do conjunto de testes são comparadas.
Interpretação . "Eu preferi esse método porque ele me deu grupos que, explicados, são mais persuasivos de que há significado no mundo" . Não é estatístico - é sua validação psicológica. Quão significativos são os resultados para você, o domínio e, possivelmente, o público / cliente. Escolha o método que fornece resultados mais picantes e interpretáveis.
Gregariousness . Algumas pesquisas regularmente e todas as pesquisas ocasionalmente diziam "Eu preferi esse método porque ele forneceu com meus dados resultados semelhantes com vários outros métodos entre todos os que eu sondava" . Essa é uma estratégia heurística, mas questionável, que assume que existem dados bastante universais ou método bastante universal.
Os pontos 1 e 2 são teóricos e precedem a obtenção do resultado; confiar exclusivamente nesses pontos é a estratégia exploratória altiva e segura de si. Os pontos 3, 4 e 5 são empíricos e seguem o resultado; A confiança exclusiva nesses pontos é a estraté- gia e a estratégia exploratória de tentar tudo. O ponto 6 é criativo, o que significa que ele nega qualquer resultado para tentar reajustá-lo. O ponto 7 é o mauvaise leal.
Os pontos 3 a 7 também podem ser juízes na sua seleção do "melhor" número de clusters .
fonte
Existem principalmente critérios de bandeira vermelha . Propriedades dos dados que informam que uma certa abordagem falhará com certeza.
se você não tem idéia do que seus dados significam, pare de analisá-los. você está apenas adivinhando animais nas nuvens.
se os atributos variam em escala e não são lineares ou inclinados. isso pode arruinar sua análise, a menos que você tenha uma idéia muito boa da normalização apropriada. Pare e aprenda a entender seus recursos. É muito cedo para agrupar.
se todo atributo for equivalente (mesma escala) e linear, e você quiser quantizar seu conjunto de dados (e o erro do quadrado mínimo tiver significado para seus dados), então k-means vale uma tentativa. Se seus atributos forem de tipo e escala diferentes, o resultado não será bem definido. Contra-exemplo: idade e renda. A renda é muito distorcida e não
x years = y dollar
faz sentido.se você tiver uma idéia muito clara de como quantificar semelhança ou distância (de maneira significativa ; a capacidade de calcular algum número não é suficiente), o cluster hierárquico e o DBSCAN são uma boa opção. Se você não tem idéia de como quantificar a similaridade, resolva esse problema primeiro.
Você percebe que o problema mais comum é que as pessoas tentam despejar seus dados brutos no cluster, quando precisam primeiro entendê-los e normalizá-los e descobrir semelhanças.
Exemplos:
Pixels de uma imagem no espaço RGB. Os mínimos quadrados fazem algum sentido e todos os atributos são comparáveis - k-means é uma boa escolha.
Dados geográficos: mínimos quadrados não é muito apropriado. haverá discrepâncias. mas a distância é muito significativa. Use DBSCAN se você tiver muito ruído ou HAC (clustering aglomerado hierárquico) se você tiver dados muito limpos.
Espécies observadas em diferentes habitats. Os mínimos quadrados são duvidosos, mas, por exemplo, a semelhança de Jaccard é significativa. Você provavelmente tem apenas poucas observações e nenhum habitat "falso" - use HAC.
fonte
stop criteria
. Pois, como você sabe, "regras de parada" ou "critério de parada" é sinônimo de "critérios de armazenamento em cluster interno" no domínio do armazenamento em cluster hierárquico. Então, é um termo preocupado. Mas você quer dizer essas palavras em sentido diferente na resposta, e isso pode confundir o leitor.(non)linear attributes
. O que você quer dizer? De que maneira um atributo "linear"? ou você está falando de relações lineares , ou seja, formas elipsóides (e não curvas) de aglomerados?Eu não acho que exista uma boa maneira formal de fazer isso; Eu acho que as boas soluções são aquelas que fazem sentido, substancialmente.
Obviamente, você pode tentar dividir os dados e agrupar várias vezes e assim por diante, mas ainda há a questão de qual deles é útil.
fonte