Eu tenho um conjunto de pontos de dados em um espaço N-dimensional. Além disso, eu também tenho um centróide neste mesmo espaço N-dimensional. Existem abordagens que me permitam projetar esses pontos de dados em um espaço bidimensional, mantendo as informações de distância relativa no espaço original. O PCA é o correto?
data-visualization
pca
multidimensional-scaling
bit-question
fonte
fonte
Respostas:
Uma estrutura geral que trata do seu problema é chamada redução de dimensionalidade. Você deseja projetar dados de N dimensões para 2 dimensões, preservando as "informações essenciais" em seus dados. O método mais adequado depende da distribuição dos seus dados, ou seja, o coletor N-dimensional. O PCA ajustará um plano usando o critério de mínimos quadrados. Provavelmente, isso funcionará mal no exemplo "rocambole": rocambole .
Os métodos mais modernos incluem o Kernel PCA, LLE, mapas de difusão e representações de dicionário esparsas. Em relação à preservação à distância, alguns métodos podem preservar distâncias não euclidianas.
fonte
Como mencionado na resposta anterior, existem vários métodos de redução de dimensionalidade, e uma coisa importante a considerar é o que você está tentando representar - você está interessado em medidas de distância euclidiana? Ou uma métrica de similaridade entre amostras?
Para o primeiro, o PCA pode ser apropriado. É comumente usado com medidas contínuas, como medições de amostras (animais, plantas, etc ...). Eu também examinaria as menções mais modernas na resposta anterior.
Para o último, onde você pode tentar comparar semelhanças usando uma métrica de distância não euclidiana, existem alguns métodos bons, como Ordenação de Componentes Principais (PCoA) e Escala Multidimensional Não-métrica (NMDS). Um exemplo de quando você pode usá-las é quando você está comparando as comunidades ecológicas entre diferentes áreas, e você tem vários tipos diferentes de organismos que foram encontrados. Portanto, seus dados são dados de "contagem". Existem várias métricas de similaridade, como Jaccard, Sorensen, Bray-Curtis, que permitem efetivamente estimar quão semelhantes os sites são em sua composição de organismos. PCoA e NMDS basicamente permitem plotar as amostras (locais) para representar a distância ecológica (semelhança), e você tem uma pontuação por local em cada eixo.
Existem muitos bons livros e outros recursos para análise multivariada. Pesquise "Ordenação" no Google. Além disso, há um pacote R chamado 'vegan' que é realmente bom para realizar muito desse trabalho.
fonte
Seu problema parece um aplicativo de livro didático para dimensionamento multidimensional . Uma boa introdução pode ser encontrada aqui: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm
Claro que você pode tentar o PCA. Mas o PCA não tem intenção de manter as informações de distância relativa no espaço original.
fonte