Visualização e overplotting: alternativa para dispersões

8

Eu tenho um grande conjunto de dados de países que estão lotados (como você pode ver abaixo), mas preciso dos rótulos e dos outliers - também tenho muitos gráficos, por isso seria tedioso redefinir a janela e adicionar dados falsos para os outliers.

Existe uma boa alternativa para um gráfico de dispersão que possa ser melhor em tal situação? Eu realmente gostaria de fazer um mapa, mas preciso das duas partes do par ordenado mostradas.

insira a descrição da imagem aqui

arebearit
fonte
1
Isso me parece difícil de responder em sua forma atual. Você pode fornecer mais informações sobre sua situação, seus dados e suas metas? Quais são as variáveis? Você só precisa identificar os discrepantes de alguma maneira (por exemplo, uma abordagem sem visualização seria boa)? Qual software você está usando? Você está apenas pedindo código? (Se assim for, a questão seria fora de tópico aqui.) Etc.
gung - Reinstate Monica
Existem softwares (no R, eu acho) que tentarão colocar rótulos para que eles não exagerem. Além disso, se você tiver todos os rótulos, não precisará dos pontos, o rótulo fará o trabalho! Tente com um tamanho de fonte menor e, talvez, com fontes que possam ser visualizadas, não se lembre do nome, deve ser possível em R, variando a transparência. Dê uma olhada no ggplot2, ou F Harrells Design, talvez algo lá.
precisa saber é o seguinte

Respostas:

13

Algumas técnicas são demonstradas nesta trama que fiz alguns meses atrás.

  1. Rotule apenas os pontos "interessantes" e conte com um rótulo instantâneo para identificar outros pontos sob demanda. Isso requer intervenção humana para dar certo, embora o software possa se aproximar de heurísticas, como mostrar apenas rótulos quando eles podem ser mostrados sem sobreposição.

  2. Transforme a escala, como com logs ou quantis. A cautela aqui é que a escala não está mais diretamente alinhada com a nossa percepção. O espectador deve manter a transformação em mente.

insira a descrição da imagem aqui

Outras opções:

  1. Use múltiplos de grade ou pequenos . Ou seja, mostre uma série de gráficos, cada um com um subconjunto de pontos, como um gráfico para cada região para os dados do seu país.

  2. Use gráficos de variável única vinculados, como barras ou gráficos de pontos, para que o rótulo fique no eixo. Ajuda se você pode classificar por qualquer variável interativamente.

insira a descrição da imagem aqui

xan
fonte
Eu amo o enredo no topo; você liberou o código para algum lugar? "Ou seja, mostre uma série de gráficos, cada um com um subconjunto de pontos, como um gráfico para cada região para os dados do seu país" é um bom ponto - Nick Cox tem uma excelente resposta em algum lugar, mostrando como isso pode ser feito em Stata (acho que ele escreveu um pacote para ele). Vou ver se consigo encontrá-lo e vinculá-lo.
Silverfish
Obrigado @Silverfish! Fiz o gráfico de dispersão interativamente no JMP (produto da minha empresa) com os rótulos ajustados manualmente e as partes cor-de-rosa adicionadas programaticamente. Perigos da "publicação" no Twitter - preciso publicá-la em algum lugar com um pouco mais de explicação, dados e scripts. Seguirei com um link aqui, se eu conseguir.
X15
1
@ Silverfish Você pode estar pensando em postagens no Statalist, por exemplo: statalist.org/forums/forum/general-stata-discussion/general/…
Nick Cox
1
Os dados e scripts para o meu primeiro gráfico estão em community.jmp.com/docs/DOC-7108 .
xan
@ Nick Cox Isso mesmo! Bem, na verdade, acho que vi isso em: Cox, NJ 2010, " Subconjuntos de gráficos", The Stata Journal , 10 : 670-681. Mas os gráficos coloridos naquele post estatalista na verdade tornam isso ainda mais claro. Link para o artigo de jornal é www.stata-journal.com/sjpdf.html?articlenum=gr0046 (Eu suspeito que o ponto de interrogação é interrompê-lo aparecer como uma hiperligação)
Silverfish
5

Se você deseja uma alternativa para um gráfico de dispersão, um gráfico de coordenadas paralelas pode funcionar, principalmente se você estiver tentando mostrar o relacionamento entre muitas variáveis. Você "possui muitos gráficos" e um gráfico de coordenadas paralelas pode reduzir esse número a um! Aqui está um exemplo do famoso conjunto de dados Iris , retirado da Wikipedia ( crédito de imagem ):

Gráfico de coordenadas paralelas para dados da íris

O gráfico mostra a variação entre as espécies muito claramente. Você pode optar por colorir por região geográfica ou nível de desenvolvimento. Podemos ver o quão difícil é distinguir as três espécies com base na largura das sépalas, mas há mais separação nos comprimentos das pétalas. Após um pouco de ajuste mental (nossos olhos podem ser treinados demais para procurar uma "inclinação ascendente"), obviamente existe uma correlação positiva entre a largura e o comprimento da pétala, porque larguras maiores estão associadas a comprimentos maiores. As flores no topo da escala para um tendem a estar no topo da escala para o outro - isso se manifesta em linhas aproximadamente paralelas que correm entre os eixos. Por outro lado, existe uma correlação negativa entre a largura e o comprimento da sépala,

A imagem consegue capturar muitas das informações disponíveis em uma matriz inteira de gráficos de dispersão ( crédito de imagem ):

Matriz de dispersão para dados da íris

No lado positivo, o gráfico do eixo paralelo nos dá a capacidade de seguir um indivíduo em todas as variáveis ​​medidas: se vemos dois pontos interessantes em dois gráficos de dispersão separados, particularmente em valores extremos, pode não ser evidente se eles representam o mesmo indivíduo, mas em uma plotagem de eixo paralelo, podemos apenas "seguir a linha". Por outro lado, abandonar todos esses gráficos dispersos descarta informações sobre relacionamentos multivariados. Obviamente, não podemos ver alguns detalhes do agrupamento com tanta clareza (embora note que Nick Cox recomenda gráficos de coordenadas paralelas com o objetivo de investigar como o agrupamento "profundo" passa pelas variáveis) e as possibilidades de discriminação linear são completamente obscurecidas. Além disso, pode ser difícil ver correlações entre eixos distantes no gráfico de coordenadas paralelas,

Se você tem a opção de interatividade, em vez de uma visualização estática, os gráficos de coordenadas paralelas oferecem algumas opções para contornar isso. Por exemplo, um usuário pode mudar a ordem dos eixos, colocando variáveis ​​próximas umas das outras para ver a relação de interesse mais claramente. Como a correlação positiva e negativa se comporta de maneira tão diferente em um gráfico de coordenadas paralelas, é útil poder inverter um eixo (se você reverter a direção de um eixo que tem correlação negativa com um eixo adjacente, as linhas entre elas ficarão "desembaraçadas" ) Mesmo em um gráfico estático, é mais eficaz reverter os eixos para produzir o maior número possível de correlações positivas e ordenar os eixos para tornar as correlações consecutivas o mais fortes possíveis, já que é difícil seguir um fio através de um emaranhado (veja Nick Cox em este ponto).

Talvez o recurso interativo mais importante seja escovar e vincular : o usuário pode selecionar, por exemplo, o quartil superior de indivíduos com base em uma variável, e suas linhas são automaticamente destacadas durante todo o gráfico. Se em outro eixo, os pontos em torno do topo são destacados, isso sugere uma correlação positiva (mas devemos verificar se o quartil inferior está associado a pontos ao redor da parte inferior da segunda variável); se os pontos principalmente ao redor do fundo estiverem destacados, isso sugere correlação negativa; se uma seleção de pontos espalhados aleatoriamente por todo o eixo for destacada, isso sugere pouca correlação.

Com o número de países que você inclui, parece difícil classificá-los em qualquer lote, a menos que você tenha restrições de espaço incomumente generosas. Talvez seja necessário destacar apenas os países individuais mais importantes. Em uma visualização interativa, os marcadores suspensos podem evitar confusão (como indica @xan) e talvez você possa permitir que os usuários realcem todos os países em uma determinada região (ou algum outro agrupamento) que possam exibir automaticamente seus marcadores.

Se você usar apenas um número limitado de etiquetas, um lugar que você pode considerar em colocá-las é nos próprios eixos. Se você olhar para A exibição visual de informações quantitativas de Edward Tufte , capítulo 7: Elementos gráficos multifuncionais, verá que isso se assemelha à sugestão de Tufte para o que ele chamou de "gráfico de mesa" para receitas fiscais do governo ( pode ser mais familiar para você como um "slopegraph") Cada eixo se torna uma espécie de tabela de classificação, o que é um recurso interessante. (Existem algumas diferenças entre as abordagens, principalmente porque o exemplo de gráfico de tabela de Tufte usava as mesmas unidades e escalas em cada eixo, em vez de normalizar os dados para se ajustar, e como seus "eixos" representavam um período anterior e posterior, o as inclinações tinham uma interpretação adicional como taxa de crescimento. Essas interpretações geralmente não são válidas para um gráfico de coordenadas paralelas, mas a idéia de uma tabela de classificação em cada eixo).

Links e referências

Silverfish
fonte
1
+1. Obrigado pela menção. Observe que combinar vermelho e verde cria um desafio para muitas pessoas, especialmente quando o símbolo é o mesmo! Vermelho, azul e preto funcionariam melhor.
Nick Cox
@ Nick Sim, eu pensei que esses não eram bons exemplos de parcelas nessa frente - eu apenas os emprestei porque eles são licenciados gratuitamente (na Wikipedia). Se eu puder encontrar exemplos melhores e licenciados livremente, eu os substituirei (ou se eu tiver um pouco de tempo para criar os meus).
Silverfish