Atualmente, estou preparando uma apresentação para um curso universitário em "Análise visual de dados". E um dos meus tópicos é a visualização "Star Coordinate". Star Coordinates
Como o Star Coordinates realiza uma transformação de dados de alta dimensão, e a conhecida técnica PCA também o faz, pergunto-me se o PCA pode ser imitado pelo Star Coordinates? Penso em reorganizar os eixos de coordenadas de uma maneira que representem uma combinação linear das variáveis originais? Mas isso é apenas uma ideia. Alguém pode confirmar ou refutar isso?
data-visualization
pca
large-data
VisioGuy
fonte
fonte
mimic PCA by Star Coordinates
é vaga demais para representar um problema real (para que uma pergunta possa ser feita). Pode-se aconselhá-lo a tentar fazê- lo primeiro e depois - se tiver problemas ou dúvidas - faça uma pergunta.Respostas:
PCA e "coordenadas em estrela" fazem coisas diferentes. Como as coordenadas em estrela padronizam todos os valores, uma comparação justa aplicaria o PCA a uma matriz de correlação (em vez da matriz de covariância), que é outra maneira de padronizar os valores.
O PCA identifica um sistema de coordenadas adaptado à forma dos dados, enquanto as coordenadas em estrela são baseadas nas coordenadas fornecidas originalmente nos dados.
Isso torna o PCA muito mais flexível para descobrir relacionamentos entre os dados. As "coordenadas em estrela" não são, em contraste, muito mais do que um gráfico 2D de informações univariadas .
O PCA (quando executado em uma matriz de correlação) usa as médias de dados para a origem e seus desvios padrão para escalas. As coordenadas em estrela usam os mínimos de dados para a origem e seus intervalos para escalas.
Os mínimos e intervalos são muito mais sensíveis aos dados externos do que os desvios padrão, tornando as coordenadas em estrela menos adequadas para a exploração de dados de uso geral.
Como tal, cada um tem suas forças - embora as forças particulares das coordenadas estelares em relação à PCA sejam difíceis de entender.
Como exemplo, considere esses dois conjuntos de dados 3D. Cada um consiste em 300 pontos e em cada um a nuvem de pontos tem uma forma de "panqueca" elíptica muito plana. (Os valores singulares de cada matriz de correlação estão próximos de .) A linha superior da figura apresenta as matrizes de correlação, a segunda linha mostra uma vista das nuvens de pontos em pseudo 3D (orientado aproximadamente para capturar os dois maiores componentes principais) e a linha inferior é a imagem "coordenadas em estrela" dos mesmos pontos.{ 2 , 1 , .01 }
Devido às diferentes orientações dessas nuvens de pontos em relação aos eixos de coordenadas originais, os gráficos de coordenadas em estrela são totalmente diferentes. Isso é característico: as coordenadas em estrela fornecem informações (muito limitadas) sobre as coordenadas originais, enquanto o PCA revela relações entre as coordenadas.
Você também pode ver que as coordenadas em estrela são uma espécie de projeção "acidental": algumas vezes, elas capturam grandes componentes principais dos dados, como na versão à esquerda, e outras, capturam componentes grandes e pequenos (como na mão direita) e em outros momentos (não ilustrados) eles capturam apenas pequenos componentes (e todos os pontos estão agrupados densamente perto da origem, revelando quase nada).
fonte