Com dados categóricos, pode haver clusters sem que as variáveis sejam relacionadas?

19

Ao tentar explicar as análises de cluster, é comum que as pessoas não entendam o processo como estando relacionadas à correlação das variáveis. Uma maneira de levar as pessoas a superar essa confusão é um enredo como este:

Isso mostra claramente a diferença entre a questão de saber se existem clusters e a questão de saber se as variáveis estão relacionadas. No entanto, isso ilustra apenas a distinção para dados contínuos. Estou tendo problemas para pensar em um analógico com dados categóricos:

ID  property.A  property.B
1   yes         yes
2   yes         yes
3   yes         yes
4   yes         yes
5   no          no
6   no          no
7   no          no
8   no          no

Podemos ver que existem dois grupos claros: pessoas com as propriedades A e B e aquelas sem. No entanto, se olharmos para as variáveis (por exemplo, com um teste qui-quadrado), elas estão claramente relacionadas:

tab
#      B
# A     yes no
#   yes   4  0
#   no    0  4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389

Acho que estou sem saber como construir um exemplo com dados categóricos que é análogo ao dos dados contínuos acima. É possível ter clusters em dados puramente categóricos sem que as variáveis também estejam relacionadas? E se as variáveis tiverem mais de dois níveis ou se você tiver um número maior de variáveis? Se o agrupamento de observações implica necessariamente relacionamentos entre as variáveis e vice-versa, isso implica que o agrupamento não vale realmente a pena quando você possui apenas dados categóricos (ou seja, você deve apenas analisar as variáveis)?

Atualização: deixei muito de fora da questão original, porque queria apenas me concentrar na idéia de que um exemplo simples poderia ser criado, que seria imediatamente intuitivo, mesmo para alguém que não estava familiarizado com as análises de cluster. No entanto, reconheço que muitos agrupamentos dependem de escolhas de distâncias e algoritmos, etc. Isso pode ajudar se eu especificar mais.

Reconheço que a correlação de Pearson é realmente apropriada apenas para dados contínuos. Para os dados categóricos, poderíamos pensar em um teste qui-quadrado (para uma tabela de contingência bidirecional) ou em um modelo log-linear (para tabelas de contingência multidirecional) como uma maneira de avaliar a independência das variáveis categóricas.

Para um algoritmo, poderíamos imaginar o uso de k-medoids / PAM, que pode ser aplicado tanto à situação contínua quanto aos dados categóricos. (Observe que parte da intenção por trás do exemplo contínuo é que qualquer algoritmo de cluster razoável possa detectar esses clusters e, caso contrário, um exemplo mais extremo deverá ser possível).

Em relação à concepção de distância. Eu assumi euclidiano para o exemplo contínuo, porque seria o mais básico para um espectador ingênuo. Suponho que a distância análoga aos dados categóricos (na medida em que seria a mais intuitiva imediatamente) seria uma correspondência simples. No entanto, estou aberto a discussões de outras distâncias se isso levar a uma solução ou apenas a uma discussão interessante.

clustering categorical-data independence - Reinstate Monica
fonte

2

Eu me pergunto se nós temos qualquer coisa como clusters em dados categóricos em tudo . Não é como se a variação entre os clusters fosse maior do que dentro dos clusters, ou se pode falar de uma diferença de densidade entre os clusters. Portanto, se a correspondência mais próxima for conjuntos de itens frequentes, as variáveis deverão ser relacionadas para a formação de clusters.

Anony-Mousse - Re: Monica

@ Anony-Mousse, isso é interessante. Por que não transformar isso em uma resposta? BTW, posso imaginar clusters realmente existentes (por exemplo, em variáveis contínuas latentes que dão origem a probabilidades diferentes para vários níveis de variáveis nominais), mas suspeito que não foi isso que você quis dizer.

gung - Restabelece Monica

Você pode transformar uma distribuição categórica em um vetor cujos componentes são as frequências normalizadas. Em seguida, a métrica euclidiana pode ser aplicada. Porém, não é a única opção: math.umn.edu/~garrett/m/fun/notes_2012-13/02_spaces_fcns.pdf e en.m.wikipedia.org/wiki/Normed_vector_space

@ttnphns, você parece ter adicionado a [data-association]tag. Não sei ao certo o que deve indicar e não possui orientação de trecho / uso. Nós realmente precisamos dessa tag? É parece um bom candidato para exclusão. Se realmente precisamos dele no CV e você sabe o que deve ser, você poderia ao menos adicionar um trecho?

gung - Restabelecer Monica

@ Gung, eu também, não entendo muito bem a que essa tag pode se referir. Eu o adicionei por causa do tópico "associação / correlação entre atributos" da pergunta. Você pode excluir a tag do Q ou totalmente. Por outro lado, é hora (acho) de repensar nossas tags, cobrindo todo o campo de correlação / associação. Por exemplo, a "correlação" deve ser mantida apenas para a correlação de Pearson? Devemos criar uma nova tag "associação de variáveis" (no lugar de "associação de dados")?

ttnphns 29/06

11

Considere o caso de cluster claro com variáveis de escala não correlacionadas - como a figura superior direita da pergunta. E categorize seus dados.

Subdividimos o intervalo de escala de ambas as variáveis X e Y em 3 caixas, que agora tratamos como rótulos categóricos. Além disso, nós os declararemos nominais, não ordinais, porque a pergunta é implícita e principalmente sobre dados qualitativos. O tamanho dos pontos é a frequência em uma célula de tabela cruzada de frequência; todos os casos na mesma célula são considerados idênticos.

Intuitivamente e de maneira mais geral, "clusters" são definidos como coágulos de pontos de dados separados por regiões esparsas no "espaço" de dados. Foi inicialmente com dados de escala e permanece a mesma impressão na tabulação cruzada dos dados categorizados. X e Y agora são categóricos, mas ainda parecem não correlacionados: a associação qui-quadrado é muito próxima de zero. E grupos estão lá.

Mas lembre-se de que estamos lidando com categorias nominais cuja ordem na tabela é arbitrária. Podemos reordenar linhas e / ou colunas inteiras como quisermos, sem afetar o valor do qui-quadrado observado. Reordenar ...

... para encontrar os clusters que simplesmente desapareceram. As quatro células, a1, a3, c1 e c3, poderiam ser unidas em um único cluster. Portanto, não, realmente não temos clusters nos dados categóricos.

Os casos das células a1 e c3 (ou da mesma forma a3 e c1) são completamente diferentes: eles não compartilham os mesmos atributos. Para induzir clusters em nossos dados - a1 e c3 para formar os clusters -, precisamos esvaziar, em grande parte, as células a3 e c1 confusas, eliminando esses casos do conjunto de dados.

Agora existem clusters. Mas, ao mesmo tempo, perdemos a falta de correlação. A estrutura diagonal exibida na tabela sinaliza que a estatística do qui-stare ficou longe de zero.

Pena. Vamos tentar preservar a correlação e os clusters mais ou menos claros ao mesmo tempo. Podemos decidir esvaziar suficientemente apenas a célula a3, por exemplo, e depois considerar a1 + c1 como um cluster que se opõe ao cluster c3:

Essa operação não deixou o Chi-quadrado longe de zero ...

[Indeed, table such as for example
 6   6   1
 6   6   1
 1   1   0
retains about the same very low chi-square association after
dividing 2nd column by 3 and multiplying 2nd row by 3, which gives
 6   2   1
18   6   3
 1  1/3  0
Cell (1,2) got thrice lower frequency. We had, however, to upheave
cell (2,1) frequency thrice, to keep Chi-sq almost as before.]

... mas a situação com clusters é confusa. O cluster a1 + c1 contém casos que são parcialmente idênticos, parcialmente meio diferentes. O fato de um cluster ser relativamente homogêneo não é, em si, um impedimento para uma estrutura de cluster claro em um conjunto de dados. No entanto, o problema com nossos dados categóricos é que o cluster a1 + c1 não é melhor do que o cluster c1 + c3, seu análogo simétrico. Isso significa que a solução de cluster é instável - dependerá da ordem dos casos no conjunto de dados. Uma solução instável, mesmo que seja relativamente "clara de cluster", é uma solução ruim, não confiável.

A única maneira de superar o problema e tornar a solução clara e estável será desatar a célula c3 da célula c1 movendo seus dados abaixo para a célula b3 (ou para b2).

Portanto, temos clusters claros a1 + c1 vs b3. Mas veja, aqui novamente o padrão diagonal aparece - e o qui-quadrado da tabela tem um limite acima de zero.

Conclusão . É impossível ter duas variáveis nominais não associadas ao qui-quadrado e bons agrupamentos de casos de dados simultaneamente. Clusters claros e estáveis implicam induzir associação variável.

Também está claro que, se a associação estiver presente - ou seja, o padrão diagonal existe ou é possível mediante reordenação -, então os clusters devem existir. Isso ocorre porque a natureza dos dados categóricos ("tudo ou nada") não permite meios-tons e condições limítrofes; portanto, uma imagem como a parte inferior esquerda na pergunta do OP não pode surgir com dados categóricos e nominais.

Suponho que, à medida que obtemos mais e mais variáveis nominais (em vez de apenas duas) que são bivariadas sem qui-quadrado, chegamos mais perto da possibilidade de ter agrupamentos. Mas zero qui-quadrado multivariado, espero que ainda seja incompatível com clusters. Isso ainda precisa ser mostrado (não por mim ou não desta vez).

Finalmente, uma observação sobre a resposta do @ Bey (também conhecida como user75138), que eu parcialmente apoiei. Comentei com meu acordo que primeiro é preciso decidir a métrica da distância e a medida de associação antes que ele possa colocar a pergunta "a associação variável é independente dos agrupamentos de casos?". Isso ocorre porque nenhuma medida de associação universal existe, nem a definição estatística universal de clusters. Eu acrescentaria ainda, ele também deve decidir sobre a técnica de agrupamento. Vários métodos de agrupamento definem diferentemente o que são "agrupamentos" que eles procuram. Portanto, toda a afirmação pode ser verdadeira.

Dito isto, a fraqueza de um ditado é que ele é muito amplo. Deve-se tentar mostrar concretamente se e onde uma escolha no método da métrica à distância / medida de associação / cluster abre espaço para reconciliar a não correlação com a cluster, para dados nominais. Ele deveria ter em mente, em particular, que nem todos os muitos coeficientes de proximidade para dados binários fazem sentido com dados nominais, já que para dados nominais "os dois casos não possuem esse atributo" nunca podem ser a base de sua semelhança.

Atualização , relatando minhas descobertas de simulações.

$.1$

$r$

As descobertas geralmente suportam o raciocínio exibido acima na resposta. Nunca houve grupos muito claros (como pode ocorrer se a associação qui-quadrado for forte). E os resultados dos diferentes critérios de agrupamento muitas vezes se contradizem (o que não é muito provável que ocorra quando os clusters são realmente claros).

Às vezes, o armazenamento em cluster hierárquico ofereceria uma solução de k-cluster que é um pouco boa, como observado por meio de um gráfico de critérios de armazenamento em cluster; no entanto, testá-lo quanto à estabilidade não mostrará que é estável. Por exemplo, esses 4x4x3dados de 3 variáveis

   V1  V2  V3   Count
    1   1   1   21
            2   24
            3   1
        2   1   22
            2   26
            3   1
        3   1   1
            2   1
            3   1
        4   1   17
            2   20
            3   1
    2   1   1   10
            2   12
            3   1
        2   1   10
            2   12
            3   1
        3   1   1
            2   1
            3   1
        4   1   8
            2   9
            3   1
    3   1   1   24
            2   28
            3   1
        2   1   25
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1
    4   1   1   24
            2   28
            3   1
        2   1   26
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1

quando agrupadas pelo método hi-searchical de ligação completa, a similaridade dos dados parece dividir-se razoavelmente em 9 grupos, neste caso, de acordo com os três juízes de validade internos:

Mas a solução não é estável, como pode ser visto pela dispersão incompleta da matriz de confusão da solução original contra a solução permutada (reorganizada por caso):

Se a solução fosse estável (como provavelmente teríamos dados contínuos), teríamos escolhido a solução de 9 clusters como suficientemente persuasiva.

O cluster com base na distância de probabilidade do log (em oposição à semelhança dos dados) pode fornecer soluções estáveis e "não ruins" (válidas internamente). Mas isso ocorre porque a distância, pelo menos como no cluster TwoStep do SPSS, incentiva e promove clusters de alta densidade populacional e negligencia os de baixa densidade populacional. Ele não exige que os clusters com frequência muito baixa por dentro sejam densos por dentro (isso parece ser a "política" da análise de cluster TwoStep, que foi projetada especialmente para big data e para fornecer poucos clusters; clusters pequenos são vistos como outliers) . Por exemplo, esses dados com 2 variáveis

seria combinada pelo TwoStep em 5 clusters, como mostrado, de forma estável, e a solução de 5 clusters não é nada ruim, conforme julgado por alguns critérios de cluster. Como os quatro clusters populosos são muito densos por dentro (na verdade, todos os casos são idênticos), e apenas um quinto cluster, que inclui poucos casos, é extremamente entropiado. Tão aparente na verdade é a solução de 12 clusters, não o 5, mas 12 é o número total de células na tabela de frequências, que, como uma "solução de cluster", é trivial e desinteressante.

ttnphns
fonte

+1, é o que eu suspeitava. O não associado aos pares versus os não multivariados é um ponto interessante. Considerando esse problema de maneira mais ampla, isso implica que não há realmente nenhum sentido em tentar agrupar dados puramente nominais? Ou seja, devemos sempre analisar as variáveis se não tivermos dados contínuos?

gung - Restabelece Monica

1

@ Gung, você não sabe a máxima de que a correlação entre variáveis é o outro lado da moeda de polarização dos casos ("diagolness")? Isso é verdade, como máxima, também para dados contínuos. Mas, para contínua, a polarização pode não implicar agrupamentos. Para categórico, parece que isso implica. Devido à natureza discreta. Portanto, provavelmente sim, se as variáveis categóricas se correlacionarem, há grupos a serem encontrados. Mas você precisa fazer cluster para obter os clusters da melhor maneira. Essa é minha opinião provisória para sua grande pergunta.

ttnphns

Eu não estou familiarizado com isso. Talvez eu pergunte sobre isso mais tarde. É uma boa informação para mastigar por enquanto, eu acho.

gung - Restabelece Monica

3

Como eu tenho certeza que você sabe, a correlação é uma medida da relação linear entre duas variáveis, não a proximidade dos pontos. Isso explica as quatro principais figuras.

Obviamente, você também pode criar gráficos semelhantes para dados discretos e com valor real.

$X \in \{A,B,C,D\}$ $\mathbb{R}$ $X \subset \mathbb{R}$ $X$

Você precisaria definir uma métrica para o espaço categórico antes de poder realmente falar sobre agrupamentos no sentido geométrico.

fonte

Eu apoiaria essa resposta e a reformularia, se o @gung e o Bey permitirem, em termos intuitivos. Os dados em cluster são definidos por "pequenas distâncias no cluster, mas longas distâncias entre os clusters". Em suas fotos, o OP selecionou, implicitamente, a distância euclidiana para ilustrar essa idéia de agrupamento. Ele também selecionou a noção de correlação de Pearson ou algo semelhante a ela - para ilustrar a ideia de associação entre variáveis. Essas são duas escolhas particulares / arbitrárias entre muitas alternativas.

ttnphns

1

(cont.) Eu poderia até imaginar que poderia ser escolhida tal medida de distância e essa medida de associação onde a concepção de "agrupamento de casos" e a concepção de "associações variáveis" não são ortogonais. E agora, para dados categóricos. Antes que se possa verificar e mostrar se as duas concepções podem ser independentes ou relacionadas, ele deve selecionar uma medida de distância específica para pontos de dados categóricos e uma medida de associação específica para variáveis categóricas. Há muitas alternativas para você escolher! E a resposta vai depender.

ttnphns

@ttnphns (+1) Gosto de como você estruturou as duas principais opções: métricas de distância e associação. Mas não sei o que dizer da minha explicação não foi intuitivo ... você não pode definir clusters sem noção de distância.

@ttnphns, acho que depende de Bey. Por que você não transforma algumas de suas idéias em sua própria resposta? Eu estaria interessado na idéia de que o "agrupamento de casos" e as "associações variáveis" se tornem não ortogonais para os dados contínuos, dadas algumas opções. Além disso, adicionei alguns esclarecimentos à pergunta sobre medidas de distância e associação, mas você deve se sentir à vontade para seguir uma direção diferente, se preferir. Deixe-me saber se precisa de mais. Minha preferência é que a pergunta permaneça o mais "frouxa" possível para dar aos respondentes a flexibilidade de seguir uma direção diferente.

gung - Restabelece Monica

1

@Bey, é claro que existem muitas outras medidas possíveis de distância e associação para dados categóricos, então você pode sugerir algo esotérico que o faça funcionar.

gung - Restabelece Monica

2

Considere a distância de Hamming - a distância de Hamming entre duas cordas de igual comprimento é o número de posições nas quais os símbolos correspondentes são diferentes. A partir dessa definição, parece óbvio que podemos produzir dados para os quais possuímos clusters com base na distância de Hamming, mas sem correlações entre as variáveis.

Um exemplo segue usando o Mathematica.

Crie alguns dados categóricos (sequências longas de 3 símbolos de amostragem aleatória uniforme de 4 caracteres):

chs = CharacterRange["a", "d"];
words = StringJoin @@@ Union[Table[RandomChoice[chs, 3], 40]];
Length[words]
words

(* 29 *)

(* {"aac", "aad", "abb", "aca", "acb", "acd", "adb", "adc", "baa", "bab", "bac", "bad", "bcc", "bcd", "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", "dba", "dbb", "dbd", "dca", "dcc", "dcd"} *)

Use gráficos de mosaico para o relacionamento entre as variáveis (probabilidades condicionais para pares de valores de diferentes colunas):

Import["https://raw.githubusercontent.com/antononcube/MathematicaForPrediction/master/MosaicPlot.m"]
wordSeqs = Characters /@ words;
opts = {ColorRules -> {2 -> ColorData[7, "ColorList"]}, ImageSize -> 400};
Grid[{{MosaicPlot[wordSeqs[[All, {1, 2}]], 
    "ColumnNames" -> {"column 1", "column 2"}, opts],
   MosaicPlot[wordSeqs[[All, {2, 3}]], 
    "ColumnNames" -> {"column 2", "column 3"}, opts],
   MosaicPlot[wordSeqs[[All, {1, 3}]], 
    "ColumnNames" -> {"column 1", "column 3"}, opts]}}, Dividers -> All]

Podemos ver que não há correlação.

Encontre clusters:

cls = FindClusters[words, 3, DistanceFunction -> HammingDistance]

(* {{"aac", "aad", "adc", "bac"}, {"abb", "acb", "adb", "baa", "bab", "bad", 
  "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", 
  "dbb"}, {"aca", "acd", "bcc", "bcd", "dba", "dbd", "dca", "dcc", "dcd"}} *)

Se substituirmos cada caractere por um número inteiro, podemos ver neste gráfico como os agrupamentos são formados com a distância de Hamming:

esrules = Thread[chs -> Range[Length[chs]]]; gr1 = 
 ListPointPlot3D[Characters[cls] /. esrules, 
  PlotStyle -> {PointSize[0.02]}, PlotLegends -> Automatic, 
  FaceGrids -> {Bottom, Left, Back}];
gr2 = Graphics3D[
   Map[Text[#, Characters[#] /. esrules, {1, 1}] &, Flatten[cls]]];
Show[gr1, gr2]

Cluster adicional

Vamos fazer um gráfico conectando as palavras para as quais a distância de Hamming é 1:

mat = Clip[Outer[HammingDistance, words, words], {0, 1}, {0, 0}];
nngr = AdjacencyGraph[mat, 
  VertexLabels -> Thread[Range[Length[words]] -> words]]

Agora vamos encontrar os clusters da comunidade:

CommunityGraphPlot[nngr]

Compare os clusters de gráfico com o encontrado com FindClusters(que foi forçado a encontrar 3). Podemos ver que "bac" é altamente central e "aad" pode pertencer ao cluster verde, que corresponde ao cluster 1 no gráfico 3D.

Dados do gráfico

Aqui está a lista de borda de nngr:

{1 <-> 2, 1 <-> 8, 1 <-> 11, 1 <-> 17, 2 <-> 6, 2 <-> 12, 2 <-> 18, 
 3 <-> 5, 3 <-> 7, 3 <-> 19, 3 <-> 25, 4 <-> 5, 4 <-> 6, 4 <-> 27, 
 5 <-> 6, 5 <-> 7, 5 <-> 20, 6 <-> 14, 6 <-> 29, 7 <-> 8, 7 <-> 22, 
 9 <-> 10, 9 <-> 11, 9 <-> 12, 9 <-> 15, 10 <-> 11, 10 <-> 12, 
 10 <-> 16, 10 <-> 23, 11 <-> 12, 11 <-> 13, 11 <-> 17, 12 <-> 14, 
 12 <-> 18, 13 <-> 14, 13 <-> 28, 14 <-> 29, 15 <-> 16, 15 <-> 17, 
 15 <-> 18, 15 <-> 21, 16 <-> 17, 16 <-> 18, 16 <-> 19, 16 <-> 20, 
 16 <-> 22, 16 <-> 23, 17 <-> 18, 19 <-> 20, 19 <-> 22, 19 <-> 25, 
 20 <-> 22, 21 <-> 22, 23 <-> 25, 24 <-> 25, 24 <-> 26, 24 <-> 27, 
 25 <-> 26, 26 <-> 29, 27 <-> 28, 27 <-> 29, 28 <-> 29}

Anton Antonov
fonte

Bem vindo ao site! Apenas um par de comentários: que idioma é o código? (que também não está anotado). Como você define relationship between the variables (correlation)?

ttnphns

Isto é interessante. Infelizmente, não conheço o Mathematica (e estou menos familiarizado com a distância de edição), por isso preciso brincar com isso para ter certeza de que o entendo. Ainda não tive chance, mas pretendo em breve.

gung - Restabelece Monica

@gung Eu estava pensando em fazê-lo em R, mas pensei que a parte crucial é o gráfico 3D e girá-lo no (s) ângulo (s) certo (s) para obter uma visão da formação de clusters. Boa pergunta, a propósito!

Anton Antonov

Então você tem "clusters" aqui. Mas eles são significativos? Eles são melhores que outros clusters? A partir da trama, eu diria que o cluster 1 é bastante aleatório. Então, por que isso é um cluster?

Anony-Mousse - Re: Monica Monica

1

Os dados aleatórios uniformes gerados (!) Claramente não devem ter clusters. O enredo de "comunidade" é enganoso porque não preserva distâncias. O gráfico com 1 distância enfatiza esses problemas. Também mostra outro exemplo cda. Desculpe, não estou "comprando" esses "clusters". Os dados são uniformes, é suposto não ter clusters.

Anony-Mousse -Reinstala Monica

2

ponto @ttnphns sobre pares vs multivariada associação é bem aceite. Relacionado a isso, a velha visão sobre a importância de demonstrar associação com métricas simples antes de pular para uma estrutura multivariada. Em outras palavras, se medidas simples de associação aos pares não mostram relacionamento, torna-se cada vez mais improvável que os relacionamentos multivariados também mostrem algo. Digo "cada vez mais improvável" devido à relutância em usar a palavra "impossível". Além disso, sou agnóstico quanto à métrica empregada, seja uma correlação de Spearman monotônica para dados ordinais, D de Somer , Tau de Kendall, correlação policórica, MIC de Reshef, correlação de distância de Szelkey, qualquer que seja. A escolha da métrica não é importante nesta discussão.

O trabalho original feito para encontrar estrutura latente em informações categóricas remonta ao início dos anos 50 e Paul Lazersfeld, sociólogo da Columbia. Essencialmente, ele inventou uma classe de modelos de variáveis latentes que tiveram amplo desenvolvimento e modificação desde então. Primeiro, com o trabalho dos anos 60 de James Coleman, economista político do EUA, sobre propensões latentes às eleições, seguido pelas contribuições do falecido Clifford Clogg, também um sociólogo, cujo software MELISSA foi o primeiro freeware de classe latente disponível ao público.

Nos anos 80, os modelos de classes latentes foram estendidos de informações puramente categóricas para modelos de misturas finitas com o desenvolvimento de ferramentas como o Latent Gold da Statistical Innovations. Além disso, Bill Dillon, cientista de marketing, desenvolveu um programa Gauss para ajustar modelos de misturas finitas discriminantes latentes. A literatura sobre essa abordagem para ajustar misturas de informações categóricas e contínuas é realmente bastante extensa. Não é tão conhecido fora dos campos onde foi aplicado mais amplamente, por exemplo, ciência de marketing em que esses modelos são usados para segmentação e cluster de consumidores.

No entanto, essas abordagens do modelo de mistura finita para agrupamento latente e análise de tabelas de contingência são consideradas antigas no mundo atual de dados massivos. O estado da arte em encontrar associação entre um enorme conjunto de tabelas de contingência são as decomposições disponíveis na implantação de modelos de tensores, como os desenvolvidos por David Dunson e outros bayesianos da Duke. Aqui está o resumo de um de seus artigos, bem como um link:

A análise da tabela de contingência depende rotineiramente de modelos lineares de log, com a análise de estrutura latente fornecendo uma alternativa comum. Os modelos de estrutura latente levam a uma fatoração tensorial de baixo nível da função de massa de probabilidade para dados categóricos multivariados, enquanto os modelos logarítmicos lineares atingem uma redução de dimensionalidade através da dispersão. Pouco se sabe sobre a relação entre essas noções de redução da dimensionalidade nos dois paradigmas. Obtemos vários resultados relacionando o suporte de um modelo log-linear à classificação não-negativa do tensor de probabilidade associado. Motivados por essas descobertas, propomos uma nova classe de decomposições de tensores em colapso de Tucker, que une as decomposições existentes de PARAFAC e Tucker, fornecendo uma estrutura mais flexível para caracterizar parcimoniosamente dados categóricos multivariados.

https://arxiv.org/pdf/1404.0396.pdf

Mike Hunter
fonte

Esta é uma informação interessante. Não sou tão claro como isso se conecta à questão.

gung - Restabelece Monica

Dada a ampla discussão e as questões fundamentais levantadas sobre se "grupos de dados categóricos" existem ", sua falta de clareza quanto à relevância de minha contribuição é intrigante. Na minha opinião, as informações fornecidas iluminam áreas de metodologia e descoberta de conhecimento anteriormente ignoradas. Gostaria também de destacar minha observação inicial - explicitamente direcionada à questão dos PO - de que o salto da associação par a multivariada é altamente improvável na ausência de associação no nível mais simples.

Mike Hunter

Não quis ofender, @DJohnson. Eu sou (um pouco) familiar com modelos latentes para agrupar dados categóricos (ou seja, análise de classe latente). Eu aludi a isso no meu comentário acima. Eu não estava tão familiarizado com a história, pesquisadores e software. Isso é interessante. Não vejo bem como ele responde à questão de saber se existem clusters detectáveis nos dados nominais em que as variáveis não mostram nenhuma associação. Se é nisso que você está falando, um exemplo seria útil. Você pode fornecer um?

gung - Restabelece Monica

@ gung Claro que não e nada.

Mike Hunter

Com dados categóricos, pode haver clusters sem que as variáveis ​​sejam relacionadas?

Respostas:

Cluster adicional

Dados do gráfico

Com dados categóricos, pode haver clusters sem que as variáveis sejam relacionadas?