Coordenadas em estrela vs. análise de componentes principais

Atualmente, estou preparando uma apresentação para um curso universitário em "Análise visual de dados". E um dos meus tópicos é a visualização "Star Coordinate". Star Coordinates

Como o Star Coordinates realiza uma transformação de dados de alta dimensão, e a conhecida técnica PCA também o faz, pergunto-me se o PCA pode ser imitado pelo Star Coordinates? Penso em reorganizar os eixos de coordenadas de uma maneira que representem uma combinação linear das variáveis originais? Mas isso é apenas uma ideia. Alguém pode confirmar ou refutar isso?

data-visualization pca large-data VisioGuy
fonte

O link é interessante, obrigado (+1). De alguma forma, sua ideia mimic PCA by Star Coordinatesé vaga demais para representar um problema real (para que uma pergunta possa ser feita). Pode-se aconselhá-lo a tentar fazê- lo primeiro e depois - se tiver problemas ou dúvidas - faça uma pergunta.

precisa saber é o seguinte

Para adicionar à resposta aceita, você pode experimentar o Star Coordinates aqui: star-coordinates.com Essa implementação pode fornecer uma idéia sobre possíveis operações. Isenção de responsabilidade: eu sou o criador desse site. Quando eu estava procurando entender esse tipo de visualização, não consegui encontrar uma implementação on-line.

Kadrian 24/05

PCA e "coordenadas em estrela" fazem coisas diferentes. Como as coordenadas em estrela padronizam todos os valores, uma comparação justa aplicaria o PCA a uma matriz de correlação (em vez da matriz de covariância), que é outra maneira de padronizar os valores.

O PCA identifica um sistema de coordenadas adaptado à forma dos dados, enquanto as coordenadas em estrela são baseadas nas coordenadas fornecidas originalmente nos dados.

Isso torna o PCA muito mais flexível para descobrir relacionamentos entre os dados. As "coordenadas em estrela" não são, em contraste, muito mais do que um gráfico 2D de informações univariadas .
O PCA (quando executado em uma matriz de correlação) usa as médias de dados para a origem e seus desvios padrão para escalas. As coordenadas em estrela usam os mínimos de dados para a origem e seus intervalos para escalas.

Os mínimos e intervalos são muito mais sensíveis aos dados externos do que os desvios padrão, tornando as coordenadas em estrela menos adequadas para a exploração de dados de uso geral.

Como tal, cada um tem suas forças - embora as forças particulares das coordenadas estelares em relação à PCA sejam difíceis de entender.

Como exemplo, considere esses dois conjuntos de dados 3D. Cada um consiste em 300 pontos e em cada um a nuvem de pontos tem uma forma de "panqueca" elíptica muito plana. (Os valores singulares de cada matriz de correlação estão próximos de .) A linha superior da figura apresenta as matrizes de correlação, a segunda linha mostra uma vista das nuvens de pontos em pseudo 3D (orientado aproximadamente para capturar os dois maiores componentes principais) e a linha inferior é a imagem "coordenadas em estrela" dos mesmos pontos. $\{2, 1, .01\}$

Figura

Devido às diferentes orientações dessas nuvens de pontos em relação aos eixos de coordenadas originais, os gráficos de coordenadas em estrela são totalmente diferentes. Isso é característico: as coordenadas em estrela fornecem informações (muito limitadas) sobre as coordenadas originais, enquanto o PCA revela relações entre as coordenadas.

Você também pode ver que as coordenadas em estrela são uma espécie de projeção "acidental": algumas vezes, elas capturam grandes componentes principais dos dados, como na versão à esquerda, e outras, capturam componentes grandes e pequenos (como na mão direita) e em outros momentos (não ilustrados) eles capturam apenas pequenos componentes (e todos os pontos estão agrupados densamente perto da origem, revelando quase nada).

whuber
fonte

Coordenadas em estrela vs. análise de componentes principais

Respostas: