Coordenadas em estrela vs. análise de componentes principais

8

Atualmente, estou preparando uma apresentação para um curso universitário em "Análise visual de dados". E um dos meus tópicos é a visualização "Star Coordinate". Star Coordinates

Como o Star Coordinates realiza uma transformação de dados de alta dimensão, e a conhecida técnica PCA também o faz, pergunto-me se o PCA pode ser imitado pelo Star Coordinates? Penso em reorganizar os eixos de coordenadas de uma maneira que representem uma combinação linear das variáveis ​​originais? Mas isso é apenas uma ideia. Alguém pode confirmar ou refutar isso?

VisioGuy
fonte
O link é interessante, obrigado (+1). De alguma forma, sua ideia mimic PCA by Star Coordinatesé vaga demais para representar um problema real (para que uma pergunta possa ser feita). Pode-se aconselhá-lo a tentar fazê- lo primeiro e depois - se tiver problemas ou dúvidas - faça uma pergunta.
precisa saber é o seguinte
2
Para adicionar à resposta aceita, você pode experimentar o Star Coordinates aqui: star-coordinates.com Essa implementação pode fornecer uma idéia sobre possíveis operações. Isenção de responsabilidade: eu sou o criador desse site. Quando eu estava procurando entender esse tipo de visualização, não consegui encontrar uma implementação on-line.
Kadrian 24/05

Respostas:

9

PCA e "coordenadas em estrela" fazem coisas diferentes. Como as coordenadas em estrela padronizam todos os valores, uma comparação justa aplicaria o PCA a uma matriz de correlação (em vez da matriz de covariância), que é outra maneira de padronizar os valores.

  • O PCA identifica um sistema de coordenadas adaptado à forma dos dados, enquanto as coordenadas em estrela são baseadas nas coordenadas fornecidas originalmente nos dados.

    Isso torna o PCA muito mais flexível para descobrir relacionamentos entre os dados. As "coordenadas em estrela" não são, em contraste, muito mais do que um gráfico 2D de informações univariadas .

  • O PCA (quando executado em uma matriz de correlação) usa as médias de dados para a origem e seus desvios padrão para escalas. As coordenadas em estrela usam os mínimos de dados para a origem e seus intervalos para escalas.

    Os mínimos e intervalos são muito mais sensíveis aos dados externos do que os desvios padrão, tornando as coordenadas em estrela menos adequadas para a exploração de dados de uso geral.

Como tal, cada um tem suas forças - embora as forças particulares das coordenadas estelares em relação à PCA sejam difíceis de entender.

Como exemplo, considere esses dois conjuntos de dados 3D. Cada um consiste em 300 pontos e em cada um a nuvem de pontos tem uma forma de "panqueca" elíptica muito plana. (Os valores singulares de cada matriz de correlação estão próximos de .) A linha superior da figura apresenta as matrizes de correlação, a segunda linha mostra uma vista das nuvens de pontos em pseudo 3D (orientado aproximadamente para capturar os dois maiores componentes principais) e a linha inferior é a imagem "coordenadas em estrela" dos mesmos pontos.{2,1,.01}

Figura

Devido às diferentes orientações dessas nuvens de pontos em relação aos eixos de coordenadas originais, os gráficos de coordenadas em estrela são totalmente diferentes. Isso é característico: as coordenadas em estrela fornecem informações (muito limitadas) sobre as coordenadas originais, enquanto o PCA revela relações entre as coordenadas.

Você também pode ver que as coordenadas em estrela são uma espécie de projeção "acidental": algumas vezes, elas capturam grandes componentes principais dos dados, como na versão à esquerda, e outras, capturam componentes grandes e pequenos (como na mão direita) e em outros momentos (não ilustrados) eles capturam apenas pequenos componentes (e todos os pontos estão agrupados densamente perto da origem, revelando quase nada).

whuber
fonte