Eu tenho um conjunto de dados nominalmente 16-dimensional. Eu tenho cerca de 100 amostras em um caso e cerca de 20.000 em outro. Com base em várias análises exploratórias que conduzi usando PCA e mapas de calor, estou convencido de que a verdadeira dimensionalidade (ou seja, o número de dimensões necessárias para capturar a maior parte do "sinal") é de cerca de 4. Quero criar um slide para esse efeito para uma apresentação. A "sabedoria convencional" sobre esses dados, que pretendo refutar, é que a verdadeira dimensionalidade é uma ou duas.
O que é uma visualização simples e boa para mostrar a verdadeira dimensionalidade de um conjunto de dados? De preferência, deve ser compreensível para pessoas que possuem alguma experiência em estatística, mas não são estatísticos "reais".
Respostas:
Uma abordagem padrão seria fazer o PCA e, em seguida, mostrar um scree plot, que você deveria conseguir tirar isso de qualquer software que escolher. Um pouco de mexer e você pode torná-lo mais interpretável para o seu público em particular, se necessário. Às vezes eles podem ser convincentes, mas geralmente são ambíguos e sempre há espaço para discutir sobre como lê-los, para que uma trama de scree possa (editar: não!) Ser ideal. Vale uma olhada embora.
fonte
psych
implementa os dois com os gráficos do tipo scree (vejafa.parallel()
eVSS()
). O artigo é "Comparação de cinco regras para determinar o número de componentes a serem retidos".Uma maneira de visualizar isso seria a seguinte:
No Matlab (esquivando-se de todos os sapatos sendo jogados):
Isso gera o seguinte gráfico de dispersão:
Se você mudar
lat_d
para 4, a linha é menos plana.fonte
Eu fiz o mesmo usando PROC Varclus no SAS. A idéia básica é gerar uma solução de 4 clusters, escolher a variável correlacionada mais alta com cada cluster e demonstrar que essa solução de 4 clusters explica mais a variação do que a solução de dois clusters. Para a solução de 2 clusters, você pode usar o Varclus ou os 2 primeiros componentes principais, mas eu gosto do Varclus, pois tudo é explicado por meio de variáveis e não dos componentes. Existe um varclus em R, mas não tenho certeza se ele faz a mesma coisa.
-Ralph Winters
fonte