Eu tenho um grande conjunto de dados de países que estão lotados (como você pode ver abaixo), mas preciso dos rótulos e dos outliers - também tenho muitos gráficos, por isso seria tedioso redefinir a janela e adicionar dados falsos para os outliers.
Existe uma boa alternativa para um gráfico de dispersão que possa ser melhor em tal situação? Eu realmente gostaria de fazer um mapa, mas preciso das duas partes do par ordenado mostradas.
data-visualization
arebearit
fonte
fonte
Respostas:
Algumas técnicas são demonstradas nesta trama que fiz alguns meses atrás.
Rotule apenas os pontos "interessantes" e conte com um rótulo instantâneo para identificar outros pontos sob demanda. Isso requer intervenção humana para dar certo, embora o software possa se aproximar de heurísticas, como mostrar apenas rótulos quando eles podem ser mostrados sem sobreposição.
Transforme a escala, como com logs ou quantis. A cautela aqui é que a escala não está mais diretamente alinhada com a nossa percepção. O espectador deve manter a transformação em mente.
Outras opções:
Use múltiplos de grade ou pequenos . Ou seja, mostre uma série de gráficos, cada um com um subconjunto de pontos, como um gráfico para cada região para os dados do seu país.
Use gráficos de variável única vinculados, como barras ou gráficos de pontos, para que o rótulo fique no eixo. Ajuda se você pode classificar por qualquer variável interativamente.
fonte
Se você deseja uma alternativa para um gráfico de dispersão, um gráfico de coordenadas paralelas pode funcionar, principalmente se você estiver tentando mostrar o relacionamento entre muitas variáveis. Você "possui muitos gráficos" e um gráfico de coordenadas paralelas pode reduzir esse número a um! Aqui está um exemplo do famoso conjunto de dados Iris , retirado da Wikipedia ( crédito de imagem ):
O gráfico mostra a variação entre as espécies muito claramente. Você pode optar por colorir por região geográfica ou nível de desenvolvimento. Podemos ver o quão difícil é distinguir as três espécies com base na largura das sépalas, mas há mais separação nos comprimentos das pétalas. Após um pouco de ajuste mental (nossos olhos podem ser treinados demais para procurar uma "inclinação ascendente"), obviamente existe uma correlação positiva entre a largura e o comprimento da pétala, porque larguras maiores estão associadas a comprimentos maiores. As flores no topo da escala para um tendem a estar no topo da escala para o outro - isso se manifesta em linhas aproximadamente paralelas que correm entre os eixos. Por outro lado, existe uma correlação negativa entre a largura e o comprimento da sépala,
A imagem consegue capturar muitas das informações disponíveis em uma matriz inteira de gráficos de dispersão ( crédito de imagem ):
No lado positivo, o gráfico do eixo paralelo nos dá a capacidade de seguir um indivíduo em todas as variáveis medidas: se vemos dois pontos interessantes em dois gráficos de dispersão separados, particularmente em valores extremos, pode não ser evidente se eles representam o mesmo indivíduo, mas em uma plotagem de eixo paralelo, podemos apenas "seguir a linha". Por outro lado, abandonar todos esses gráficos dispersos descarta informações sobre relacionamentos multivariados. Obviamente, não podemos ver alguns detalhes do agrupamento com tanta clareza (embora note que Nick Cox recomenda gráficos de coordenadas paralelas com o objetivo de investigar como o agrupamento "profundo" passa pelas variáveis) e as possibilidades de discriminação linear são completamente obscurecidas. Além disso, pode ser difícil ver correlações entre eixos distantes no gráfico de coordenadas paralelas,
Se você tem a opção de interatividade, em vez de uma visualização estática, os gráficos de coordenadas paralelas oferecem algumas opções para contornar isso. Por exemplo, um usuário pode mudar a ordem dos eixos, colocando variáveis próximas umas das outras para ver a relação de interesse mais claramente. Como a correlação positiva e negativa se comporta de maneira tão diferente em um gráfico de coordenadas paralelas, é útil poder inverter um eixo (se você reverter a direção de um eixo que tem correlação negativa com um eixo adjacente, as linhas entre elas ficarão "desembaraçadas" ) Mesmo em um gráfico estático, é mais eficaz reverter os eixos para produzir o maior número possível de correlações positivas e ordenar os eixos para tornar as correlações consecutivas o mais fortes possíveis, já que é difícil seguir um fio através de um emaranhado (veja Nick Cox em este ponto).
Talvez o recurso interativo mais importante seja escovar e vincular : o usuário pode selecionar, por exemplo, o quartil superior de indivíduos com base em uma variável, e suas linhas são automaticamente destacadas durante todo o gráfico. Se em outro eixo, os pontos em torno do topo são destacados, isso sugere uma correlação positiva (mas devemos verificar se o quartil inferior está associado a pontos ao redor da parte inferior da segunda variável); se os pontos principalmente ao redor do fundo estiverem destacados, isso sugere correlação negativa; se uma seleção de pontos espalhados aleatoriamente por todo o eixo for destacada, isso sugere pouca correlação.
Com o número de países que você inclui, parece difícil classificá-los em qualquer lote, a menos que você tenha restrições de espaço incomumente generosas. Talvez seja necessário destacar apenas os países individuais mais importantes. Em uma visualização interativa, os marcadores suspensos podem evitar confusão (como indica @xan) e talvez você possa permitir que os usuários realcem todos os países em uma determinada região (ou algum outro agrupamento) que possam exibir automaticamente seus marcadores.
Se você usar apenas um número limitado de etiquetas, um lugar que você pode considerar em colocá-las é nos próprios eixos. Se você olhar para A exibição visual de informações quantitativas de Edward Tufte , capítulo 7: Elementos gráficos multifuncionais, verá que isso se assemelha à sugestão de Tufte para o que ele chamou de "gráfico de mesa" para receitas fiscais do governo ( pode ser mais familiar para você como um "slopegraph") Cada eixo se torna uma espécie de tabela de classificação, o que é um recurso interessante. (Existem algumas diferenças entre as abordagens, principalmente porque o exemplo de gráfico de tabela de Tufte usava as mesmas unidades e escalas em cada eixo, em vez de normalizar os dados para se ajustar, e como seus "eixos" representavam um período anterior e posterior, o as inclinações tinham uma interpretação adicional como taxa de crescimento. Essas interpretações geralmente não são válidas para um gráfico de coordenadas paralelas, mas a idéia de uma tabela de classificação em cada eixo).
Links e referências
fonte