Quantas variáveis ​​posso representar graficamente antes de perder a clareza?

14

Vamos ver se consigo explicar corretamente esta questão da economia gráfica . Sou novo no campo e vale a pena mencionar que isso é pura curiosidade, e meus exemplos são - como você poderá dizer em breve - completamente inventados.

Quantas variáveis ​​posso representar graficamente antes que meu gráfico perca a qualidade da comunicação? Supondo que meu público seja, por exemplo, leitores de jornais de domingo.

Suponha que eu tenha este conjunto: Peso (x) / Idade (y) e dois indivíduos: Jane, 10 anos, 30 kg; e Joe, 20 anos, 60 kg. A representação gráfica pode ser algo como isto:

insira a descrição da imagem aqui insira a descrição da imagem aqui

Agora, eu sei que posso adicionar outra variável usando o tamanho dos círculos. Portanto, se eu quiser adicionar uma representação de quantos hambúrgueres Jane e Joe comem por semana (10 e 20, respectivamente), eu poderia ter algo como:

insira a descrição da imagem aqui insira a descrição da imagem aqui

E posso até usar forma ou cor + tamanho para adicionar uma quarta variável, por exemplo, se eles comem mais hambúrgueres de queijo do que hambúrgueres de carne bovina (limitação aqui é que o tipo de hambúrguer é um booleano, com apenas dois valores possíveis), mas de qualquer maneira:

insira a descrição da imagem aqui insira a descrição da imagem aqui

E é aí que eu acho que começa a ficar bagunçado. Adicionar formas ao combo para representar uma quinta variável arriscaria a 'facilidade de compreensão' do gráfico. Quando olho para o gráfico, meu cérebro (em particular) processa apenas 2 ou 3 variáveis, nada mais. Eles comem combo ou apenas hambúrgueres, por exemplo ?:

insira a descrição da imagem aqui insira a descrição da imagem aqui

Pensei em talvez uma terceira dimensão, mas isso pareceria terrível. Eu posso estar pensando sobre isso da maneira totalmente errada, e as chances são de que estou perdendo algo bastante óbvio aqui que não consigo entender (por exemplo, se tentar representar mais de 3 ou 4 variáveis ​​está errado na prática), mas voltando para minha (s) pergunta (s):

  • É 4 (talvez 5 se o gráfico for muito simples como o meu) um número razoável para variáveis ​​máximas representadas ao mesmo tempo em um gráfico de dois eixos?

  • Existem outros tipos de gráficos que permitem mais variáveis ​​sem perder a clareza?

  • Existe um bom exemplo de um gráfico que representa com êxito um grande número de variáveis?

Yisela
fonte

Respostas:

14

Edit III: Encontrei um exemplo imensamente maravilhoso de visualização quantitativa multivariável de dados e precisei adicioná-lo. Você o encontrará sob o título "Edit III (Prêmios Nobel)".

Editar II: houve um pequeno mal-entendido e editei para tentar esclarecer como interpreto o uso pretendido dos dados. Troquei duas imagens e adicionei uma seção "Você quer batatas fritas com isso?"


Os gráficos revelam dados.

Edward Tufte:

Desordem e confusão são falhas de design, não atributos de informação. A desorganização exige uma solução de design, não redução de conteúdo. Muitas vezes, quanto mais intenso o detalhe, maior clareza e compreensão, porque o significado e o raciocínio são implacavelmente CONTEXTUAIS. Menos é um furo.

Por que visualizamos dados?

  • Ferramentas para pensar
  • Para mostrar o resultado de uma intensa visão
  • Para entender um problema, tomar uma decisão
  • Mostrar comparações, mostrar causalidade
  • Forneça razões para acreditar

Quão?

  • mostre os dados
  • induzir o espectador a pensar sobre a substância em vez de sobre metodologia, design gráfico, a tecnologia de produção gráfica ou algo mais
  • evite distorcer o que os dados têm a dizer
  • apresentar muitos números em um espaço pequeno
  • Tornar coerentes conjuntos de dados grandes
  • incentivar os olhos a comparar diferentes dados
  • revele os dados em vários níveis de detalhe, de uma visão geral ampla à estrutura fina.
  • servir a um propósito razoavelmente claro: descrição, exploração, tabulação ou decoração.
  • estar intimamente integrado às descrições estatísticas e verbais de um conjunto de dados.

Algumas definições:

Dados:

é geralmente considerado como "material classificado nos bancos de dados". É claro que isso pode ser números, imagens, som, vídeo etc. Dados são o que é colecionável, geralmente quantitativo. Na sua forma mais crua, é difícil de digerir; apenas paredes de dígitos. Você sabe; a matriz . De um modo geral, não temos bancos de dados maciços que consistem em zeros, para todas as coisas que não temos, mesmo que às vezes as coisas que não temos sejam as mais informativas . Então, para ver o que não temos, precisamos visualizar o que nós não temos.

Em formação:

é o que você pode extrair dos dados . Ao exibir dados de alguma forma, podemos coletar informações . Um dos exemplos que costumo usar é que, se eu lhe der uma lista dos países do mundo e lhe disser que faltam dois, é altamente improvável que você os encontre com base nessa lista. No entanto, se eu exibir isso colorindo todos os países que tenho em um mapa, você verá instantaneamente que omiti a República Centro-Africana e a Nova Caledônia. Isso é "reduzir o ruído" e contar uma história da maneira mais eficaz possível.

Visualização de infográficos e dados:

Hesito em chamar seu exemplo de infografia. Sei que isso costuma ser visto como sinônimo de visualização de dados, design de informações ou arquitetura de informações, mas discordo. Infográficos - para mim - são uma série de gráficos, diagramas e ilustrações que podem muito bem conter várias declarações tendenciosas sobre como ler os dados. É menos objetivo, mais propenso a pular dados que não são do "interesse" do criador: você é guiado para uma conclusão que alguém predefiniu. Eles têm valor de entretenimento e costumam ter um uso avassalador de ilustrações que retiram algum foco dos dados. Isso é bom, mas acho que devemos nos diferenciar um pouco.

Exemplos

Big data:

Lembre-se de que big data não é o mesmo que dados complexos. Muitos dados podem ser iguais, como este mapa do LinkedIn: os dados principais são os mesmos, mas existem filtros (por marcação). Existem duas variáveis: geografia e algum tipo de tag que define as pessoas em profissões / interesses / relações. Quantidade insana de dados; mas apenas duas variáveis.

insira a descrição da imagem aqui

Multivariável:

Aqui está um exemplo de visualização multivariável de dados. Este é o gráfico de Charles Minard de 1869 que mostra o número de homens no exército de campanha russa de Napoleão em 1812, seus movimentos e a temperatura que encontraram no caminho de retorno. Grande versão aqui. insira a descrição da imagem aqui

Demora um pouco para decifrar o código, mas quando você faz isso é esplêndido. As variáveis ​​cobertas são:

  • tamanho do exército (número de vivos / mortos)
  • localização geográfica
  • direção (leste - oeste)
  • temperatura
  • hora (datas)
  • causação (morreu em batalhas e de frio)

Essa é uma quantidade incrível de informações em um mapa simples de duas cores. A parte geográfica é estilizada para dar espaço a outras variáveis, mas não temos problemas em obtê-la.

Aqui está um mais complicado. Será muito mais fácil ler se você estiver familiarizado com visualizações evolutivas básicas, cladogramas, filogenia e princípios da biogeografia. Lembre-se de que é feito para pessoas familiarizadas com isso, por isso é um gráfico científico especializado. Aqui está o que mostra: Uma imagem filogeográfica de linhagens de sapos venenosos da América do Sul. Os mapas à esquerda mostram as principais regiões biogeográficas à medida que mudam com o tempo e a imagem à direita mostra as linhagens de sapos no contexto de suas origens biogeográficas. (Por Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R, et al. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], via Wikimedia Commons). Quando você "decifra o código", ele é extremamente informativo.

insira a descrição da imagem aqui

Pequenos múltiplos, linhas de faísca:

Não posso enfatizar isso o suficiente: nunca subestime o valor de repetir informações ou dividi-las em visualizações idênticas separadas. Desde que seja razoavelmente fácil comparar um gráfico com outro, isso é perfeitamente aceitável. Somos máquinas de encontrar padrões. Isso geralmente é chamado de múltiplos pequenos. Temos poucos problemas ao analisar essas imagens rapidamente, e amontoar tudo em um gráfico grande geralmente não faz sentido quando dez pequenos funcionam ainda melhor:

insira a descrição da imagem aqui

Outro:

insira a descrição da imagem aqui

E um que usa gráficos diferentes, mas repetidos:

insira a descrição da imagem aqui

Sparklines são um termo cunhado por Edward Tufte e também desenvolvido em uma biblioteca javascript totalmente funcional e totalmente personalizável. São basicamente pequenos gráficos que podem ser inseridos no texto, como parte do texto e não como um objeto "externo". Aqui está a aparência do padrão: insira a descrição da imagem aqui

Edit III (Prêmios Nobel)

Eu apenas tive que adicionar essa visualização de dados que encontrei, é simplesmente muito boa: mostra os ganhadores do Nobel. Qual universidade, qual faculdade, assunto, ano, idade, cidade natal, onde foi compartilhada, nível de graduação. Bela evidência de fato. Todos esses são dados quantificáveis. Mais aqui.

insira a descrição da imagem aqui

insira a descrição da imagem aqui

Seus dados

Todas as perguntas que o @Javi coloca são extremamente importantes.

O que você está tentando fazer é criar uma ferramenta visual para pensar. Para fazer isso, você deve extrair a melhor qualidade da relação sinal / ruído. O que você está enfrentando é como correlacionar dados com variáveis ​​diferentes em informações . Aqui está uma pergunta: o que precisa estar aproximadamente certo e o que precisa estar exatamente certo? Qual é o objetivo?

Eu vou assumir que você deseja exibir os dados sem muito viés: você quer que o leitor encontre correlações, se houver alguma correlação. Seu objetivo não é dizer às pessoas que os hambúrgueres são ruins para elas ou que as mulheres comem menos que os homens, mas deixá-las "vê-las", se é isso que os dados contêm (imagine se essas três pessoas fossem uma família. balançar nossa visão sobre o gráfico de comer hambúrguer um pouco).

Seu conjunto de dados é tão pequeno que você pode simplesmente colocá-lo em uma tabela e tudo bem. Mas é claro que isso é sobre a idéia geral:

Um pequeno detalhe: o tempo (idade) tende a ser algo que vemos horizontal da esquerda para a direita (linhas do tempo). Pese algo que esteja de cima para baixo; portanto, mudar seu x - y seria uma boa idéia.

1. Quais são as entidades fixas únicas?

  • Nomes

2. quais são as variáveis ​​variáveis ​​(eh ..)?

  • Peso (kg)
  • Idades (anos)
  • Número de hambúrgueres (inteiro)
  • Tipo de hambúrgueres (inteiro)

Nota: seus dados consistem inteiramente em unidades. Contável, quantificável, cada um em uma escala mental separada. Quilo, idade, peso e números. E no banco de dados, seus nomes são as chaves. Quando você começa a fazer visualizações no espaço-tempo, isso se torna uma verdadeira dor de cabeça. Imagine que você deve adicionar o local de nascimento, a casa atual etc.

Os únicos dois aqui que têm correlação é o número de hambúrgueres e se é ou não uma combinação. Todas as outras variáveis ​​são independentes e apenas uma é fixa (nome). Em algum momento, com grandes conjuntos de dados, até os nomes se tornam desinteressantes e são substituídos por dados demográficos, idade, sexo ou algo semelhante.

Com esse minúsculo conjunto de dados, você pode obter tudo em um gráfico, por exemplo: insira a descrição da imagem aqui

Ou você pode alterar o conteúdo do eixo e do balão de nome:

Nota pessoal: Eu acho que isso é o melhor dos dois, porque xey contêm propriedades "físicas" de um ser humano. A variável nas bolhas aqui é o número de hambúrgueres.

insira a descrição da imagem aqui

Você também pode adicionar gráficos de pizza além do gráfico, ou mesmo ter apenas gráficos de pizza. Pessoalmente, eu teria ambos, como mencionado sobre pequenos múltiplos: insira a descrição da imagem aqui

Você quer batata frita com o que?

Minha suposição era que também queríamos saber a proporção de hambúrguer por refeição. Toda refeição contém um hambúrguer. Nem todas as refeições são combinadas.

  1. queremos apenas saber se uma pessoa às vezes come alimentos combinados?
  2. ou queremos saber quantas refeições de hambúrguer também são combinadas?

Se 1., um booleano aplicado ao nome / chave / id faria.

Jane às vezes come combomeals? Verdadeiro falso.

Se 2., poderíamos aplicar um booleano a cada refeição:

1 cheeseburger, combomeal = true

1 cheeseburger, combomeal = true

1 cheeseburger, combomeal = false

1 cheeseburger, combomeal = false

1 cheeseburger, combomeal = false

1 cheeseburger, combomeal = false

1 cheeseburger, combomeal = false

1 hambúrguer de carne, combomeal = true

1 hambúrguer de carne, combomeal = true

1 hambúrguer de carne, combomeal = false

Isso é muito tedioso, para que pudéssemos dividir em:

Jane come 10 hambúrgueres. Destes, três são combos ("você quer batatas fritas com isso?").

Um dos combomeals é um menu de hambúrgueres.

Dois dos combomeals são menu de cheeseburger.

O resto são hambúrgueres individuais. 5 queijos, duas carnes.

Esse gráfico foi uma tentativa de visualizar isso. Eu mantive nesta versão as fatias de torta para torná-la mais clara. O importante é que não seria um salto começar a aplicar grandes conjuntos de dados e%: insira a descrição da imagem aqui

Mas acho que a melhor maneira é repensar.

Outra maneira de olhar para isso é fazê-lo realmente muito simples. Aqui é mais fácil ver quais faixas etárias, quais faixas de peso e todos os dados que você "não possui" podem nos dizer. Os dados que você possui não são relacionados ao espaço, são apenas unidades (kg, anos, números + chave / id / nome):

(Editar: Ovo na minha cara: Eu substituí essas imagens por outras mais corretas, quanto ao "todas as refeições são hambúrgueres, nem todas as refeições são combinadas")

insira a descrição da imagem aqui Isso seria muito fácil de expandir com mais pessoas:

insira a descrição da imagem aqui Ou, melhor ainda, se você comparar faixas etárias de 10, 20 e 30 anos, você pode simplificar bastante a visualização estatística:

insira a descrição da imagem aqui

..E apenas para ser o mais claro possível; Aqui está um exemplo dessa maneira de pensar. Este gráfico mostra os sobreviventes do Titanic, proporção de tripulação, classe, homens, mulheres. insira a descrição da imagem aqui

Haverá muitas outras soluções, estas são apenas algumas reflexões.

Eu poderia continuar, mas agora eu me exaurei e provavelmente todo mundo.

Ferramentas para brincar:

gephi

Gapminder Veja esta apresentação fenomenal do TED de Hans Rosling - ame aquele cara

Gráficos do Google

somvis

Raphaël

Exposição do MIT (anteriormente chamada Similie)

d3

Highcharts

Leitura adicional:

PJ Onori; Em defesa do duro

Edward Tufte: Belas evidências

Edward Tufte: visualizando informações

Edward Tufte: A exibição visual de informações quantitativas

Explicações visuais: Imagens e Quantidades, Evidências e Narrativas

Masculino, Alan., 2007 Ilustração: uma perspectiva teórica e contextual Lausanne, Suíça; Nova York, NY: AVA Academia

Ilhas, C. & Roberts, R., 1997. Na luz visível, fotografia e classificação em arte, ciência e no cotidiano, Museu de arte moderna de Oxford.

Card, SK, Mackinlay, J. & Shneiderman, B. eds., 1999. Leituras em Visualização da Informação: Using Vision to Think 1ª ed., Morgan Kaufmann.

Grafton, A. & Rosenberg, D., 2010. Cartografias do Tempo: Uma História da Linha do Tempo, Princeton Architectural Press.

Lima, M., 2011. Complexidade Visual: Mapeamento de Padrões de Informação, Princeton Architectural Press.

Bounford, T., 2000. Diagramas digitais: como projetar e apresentar informações estatísticas efetivamente 0 ed., Watson-Guptill.

Steele, J. & Iliinsky, N. eds., 2010. Visualização bonita: olhando dados através dos olhos dos especialistas 1ª ed., O'Reilly Media.

Gleick, J., 2011. As informações: uma história, uma teoria, um dilúvio, panteão

benteh
fonte
Eu li tudo, mas levará semanas para absorver. Você deveria escrever um livro!
Joshua Frank
Para a imagem do prêmio Nobel, você sabe como eles fizeram isso? Essas fitas fluidas são simplesmente lindas.
Joshua Frank
Não, eu não sei exatamente como ela fez, mas Giorgia Lupi ter sido muito próxima responder a algumas outras perguntas, então você pode tentar simplesmente pedindo-lhe giorgialupi.net
benteh
Ei, boa ideia. Acabei de enviar um email para ela.
Joshua Frank
2
Você merece um prêmio de novela por esta resposta n_n
Rafael
5

Eu acho que existem algumas perguntas adicionais que podem restringir sua busca pela chave para representar dados para seu público. Penso neles como restringir o seu currículo a um trabalho específico que você deseja.

  1. Por que você está criando um infográfico.
  2. Qual é o objetivo ou resultado líquido que você deseja que seu público saiba sobre seus dados.
  3. O que você sabe sobre o seu público e como eles se relacionam com os dados. (Idade demográfica, sexo, geolocalização, peso etc.)
  4. Qual é a parte mais e menos importante dos dados que você mostrará e a diferença entre eles.
  5. Qual meio / contexto você exibirá seus dados para obter melhor sua meta "líquida" para criá-los em primeiro lugar? Por exemplo, será uma representação digital de dados ou física (pense em jujubas em uma jarra se o seu público-alvo são crianças). Será para uma reunião de escritório ou um empreendimento comercial?
  6. Os dados podem ser divididos em diferentes infografias o tempo todo, mantendo a integridade do seu objetivo de criá-lo.

Seus dados e objetivo devem ditar os termos do que você deve mostrar e não mostrar. Por exemplo, quão importante seria mostrar um gráfico do que as pessoas pediram no McDonald's numa terça-feira entre as 13h e as 15h, quando todo o seu objetivo era apenas mostrar a comparação do que as pessoas pediram em geral. A variável time não é necessária, embora tenhamos os dados brutos para ela. Esse não era nosso objetivo.

Para responder especificamente às suas perguntas. Pessoalmente (subjetivo), acho que quando você deixa de usar três variáveis ​​/ 4 (tamanho, forma, cor, posição) em um gráfico básico como este, o leitor (eu) fica entediado / perdido e entediado / perdido provavelmente não é o razão pela qual o gráfico foi criado. No entanto, eles podem ser totalmente divertidos e realmente envolver o público. Por exemplo, algo como isso como se opor a isso . Também não estou descartando a importância do segundo exemplo, porque seria uma infografia realmente eficaz se eu estivesse em uma reunião no escritório mostrando dados gerais. Isso remonta à pergunta sobre o meio e o contexto de exibição dos dados.

Se você estiver procurando maneiras de mostrar variáveis ​​nos dados, sugiro pesquisar infográficos. Aqui está uma boa peça inicial da Smashing Magazine sobre a criação de infográficos eficazes. Lembre-se de que parte disso pode e é subjetiva.

Javi
fonte
2

Esta é uma excelente pergunta. Verdadeiramente.

Brilhante linha de pensamento para ser.

Deve haver alguma discussão sobre isso. Mas eu diria isso de maneira um pouco diferente:

**

Quantas propriedades podemos cruzar referência com modernas tecnologias e design ilustrativos?

**

A resposta está em três aspectos da produção: exibição, design e modo de apresentação ... todos misturados e fatorados por salpicos de consideração do público.

A exibição é uma coisa física. Com limitações de tamanho, resolução e espaço de cor.

O design é ilimitado, mas o aspecto realmente interessante desta questão. Como podemos explorar tecnologias ilustrativas modernas e nossa compreensão de design e criatividade para mostrar da melhor forma possível.

Os modos de apresentação são estáticos, dinâmicos ou interativos. Cada um com suas próprias forças e fraquezas, e composto pelo meio, tipo e tamanho da tela.

E, como Javi corretamente aponta, mas talvez não chegue perto o suficiente com ... ISSO É TUDO SUBJETIVO! - Esse é o respingo da consideração do público considerando a equação. Ou não.

Confuso
fonte