Quero reduzir a dimensionalidade dos sistemas de ordem superior e capturar a maior parte da covariância em um campo de preferência bidimensional ou unidimensional. Entendo que isso pode ser feito por meio da análise de componentes principais e usei o PCA em muitos cenários. No entanto, nunca o usei com tipos de dados booleanos e fiquei pensando se é significativo fazer o PCA com esse conjunto. Por exemplo, finja que tenho métricas qualitativas ou descritivas e atribua um "1" se essa métrica for válida para essa dimensão e "0" se não for (dados binários). Por exemplo, finja que você está tentando comparar os Sete Anões em Branca de Neve. Nós temos:
Doc, Dunga, Bashful, Grumpy, Sneezy, Sleepy and Happy, e você deseja organizá-los com base nas qualidades, e fez o seguinte:
Assim, por exemplo, Bashful é intolerante à lactose e não faz parte do papel de honra A. Esta é uma matriz puramente hipotética, e minha matriz real terá muito mais colunas descritivas. Minha pergunta é: ainda seria apropriado fazer o APC nessa matriz como meio de encontrar a semelhança entre os indivíduos?
fonte
a means of finding the similarity between individuals
. Mas essa tarefa é para uma análise de cluster, não para PCA.Respostas:
Gostaria de sugerir uma técnica relativamente recente para a extração automática da estrutura a partir de dados variáveis categóricos (isso inclui binário). O método é chamado CorEx de Greg van Steeg da University of Southern California. A idéia é usar a noção de Correlação Total com base nas medidas de entropia. É atraente devido à sua simplicidade e sem ajuste de grande número de hiperparâmetros.
O artigo sobre representações hierárquicas (o mais recente, baseia-se nas medidas anteriores). http://arxiv.org/pdf/1410.7404.pdf
fonte
Você também pode usar a Análise de Correspondência Múltipla (MCA), que é uma extensão da análise de componentes principais quando as variáveis a serem analisadas são categóricas em vez de quantitativas (como é o caso das variáveis binárias). Veja, por exemplo, Husson et al. (2010) ou Abdi e Valentin (2007) . Um excelente pacote R para executar o MCA (e cluster hierárquico em PCs) é o FactoMineR .
fonte
inflation of the feature space
e por que ele ocorreria no PCA e não no MCA.inflation of the feature space
fenômeno. Parece estar entrando em jogo ao passar da CA para a MCA, mas não é um problema inerente ao PCA. Vou remover minha resposta quando você ler este comentário. Obrigado por me fazer perceber isso.Se você pensa no PCA como uma técnica exploratória para fornecer uma maneira de visualizar os relacionamentos entre variáveis (e, na minha opinião, essa é a única maneira de pensar sobre isso), então sim, não há razão para que você não possa colocar no modo binário. variáveis. Por exemplo, aqui está um biplot de seus dados
Parece razoavelmente útil. Por exemplo, você pode ver que Doc e Bashful são muito semelhantes; que o RH é bastante diferente das três outras variáveis; Sleepy e Sneezy são muito diferentes, etc.
fonte