Eu li e vi muitas plotagens de coordenadas paralelas. Alguém pode responder ao seguinte conjunto de perguntas:
- O que são gráficos de coordenadas paralelas (PCP) em palavras simples, para que um leigo possa entender?
- Uma explicação matemática com alguma intuição, se possível
- Quando o PCP é útil e quando usá-lo?
- Quando o PCP não é útil e quando deve ser evitado?
- Possíveis vantagens e desvantagens do PCP
r
data-visualization
suncoolsu
fonte
fonte
Respostas:
Parece-me que a principal função do PCP é destacar grupos homogêneos de indivíduos ou, inversamente (no espaço duplo, por analogia com o PCA), padrões específicos de associação em diferentes variáveis. Ele produz um resumo gráfico eficaz de um conjunto de dados multivariado, quando não há muitas variáveis. As variáveis são dimensionadas automaticamente para um intervalo fixo (normalmente de 0 a 1), o que equivale a trabalhar com variáveis padronizadas (para impedir a influência de uma variável nas outras devido a um problema de dimensionamento), mas para um conjunto de dados de alta dimensão (# das variáveis> 10), você definitivamente precisa olhar para outras telas, como gráfico de flutuação ou mapa de calor, conforme usado em estudos de microarranjos.
Ajuda a responder perguntas como:
No gráfico a seguir dos dados da íris , é claramente visto que as espécies (mostradas aqui em cores diferentes) mostram perfis muito discriminantes ao considerar o comprimento e a largura da pétala, ou que a íris setosa (azul) é mais homogênea em relação ao comprimento da pétala ( ou seja, sua variação é menor), por exemplo.
Você pode até usá-lo como um back-end para técnicas de classificação ou redução de dimensão, como o PCA. Na maioria das vezes, ao executar um PCA, além de reduzir o espaço de recursos, você também deseja destacar grupos de indivíduos (por exemplo, existem indivíduos que pontuam sistematicamente mais alto em alguma combinação das variáveis); isso geralmente ocorre, aplicando algum tipo de cluster hierárquico nas pontuações dos fatores e destacando a associação do cluster resultante no espaço fatorial (consulte o pacote FactoClass R).
Também é usado em clustergrams ( visualização de análises não hierárquicas e hierárquicas de cluster ), que visa examinar como a alocação de cluster evolui ao aumentar o número de clusters (consulte também: Quais critérios de parada para clustering hierárquico aglomerativo são usados na prática? ).
Essas exibições também são úteis quando vinculadas a gráficos de dispersão usuais (que por construção são restritos a relacionamentos 2D), isso é chamado de escovação e está disponível no sistema de visualização de dados GGobi ou no software Mondrian .
fonte
Em relação às perguntas 3, 4 e 5, sugiro que você verifique este trabalho
Percebendo padrões em coordenadas paralelas: determinando limites para identificação de relacionamentos por: Jimmy Johansson, Camilla Forsell, Mats Lind, Matthew Cooper em Information Visualization, vol. 7, n ° 2. (2008), pp. 152-162.
Para resumir suas descobertas, as pessoas estão bem em identificar a direção da inclinação do relacionamento entre cada nó, mas não são tão boas em identificar a força do relacionamento ou o grau da inclinação. Eles fornecem níveis sugeridos de ruído nos quais as pessoas ainda podem decifrar o relacionamento no artigo. Infelizmente, o artigo não discute a identificação de subgrupos por cor, como demonstra chl.
fonte
Por favor, visite http://www.cs.tau.ac.il/~aiisreal/ e também veja o novo livro
Coordenadas Paralelas - Este livro trata de visualização, incorporando sistematicamente o fantástico reconhecimento de padrões humanos ao processo de solução de problemas ... www.springer.com/math/cse/book/978-0-387-21507-5.
Polegada. 10 existem muitos exemplos reais com dados multivariados mostrando como as coordenadas paralelas (abrev. || -cs) podem ser usadas. Também vale a pena aprender parte da matemática para visualizar e trabalhar com relações multivariadas / multidimensionais (superfícies) e não apenas com conjuntos de pontos. É divertido ver e trabalhar com os análogos de objetos familiares em várias dimensões, como tira de Moebius, conjuntos convexos e muito mais.
Em resumo | | -cs é um sistema de coordenadas multidimensionais em que os eixos são paralelos entre si, permitindo a visualização de muitos eixos. A metodologia foi aplicada a algoritmos de resolução de conflitos em controle de tráfego aéreo, visão computacional, controle de processos e suporte a decisões.
fonte