Os mapas de calor são “um dos tipos menos eficazes de visualização de dados”?

22

Pergunta: Quando (para quais tipos de problemas de visualização de dados) os mapas de calor são mais eficazes? (Em particular, mais eficaz do que todas as outras técnicas de visualização possíveis?)

Quando os mapas de calor são menos eficazes?

Existem padrões ou regras gerais comuns que se pode usar para decidir se é provável que um mapa de calor seja uma maneira eficaz de visualizar os dados e quando é provável que sejam ineficazes?

(Principalmente, tenho em mente mapas de calor para 2 variáveis ​​categóricas e 1 variável contínua, mas também estou interessado em ouvir opiniões sobre outros tipos de mapas de calor.)

Contexto: Estou fazendo um curso on-line sobre visualização de dados e, no momento, eles estão discutindo tipos de plotagem ineficazes e superutilizados. Eles já mencionaram gráficos de dinamite e gráficos de pizza, e as razões apresentadas pelas quais elas são ineficazes e por que existem alternativas melhores para elas eram claras e convincentes para mim. Além disso, foi fácil encontrar outras fontes corroborando as opiniões dadas sobre gráficos de dinamite e gráficos de pizza.

No entanto, o curso também afirmou que "os mapas de calor são um dos tipos menos eficazes de visualização de dados". Uma paráfrase das razões pelas quais são dadas abaixo. Mas quando tentei encontrar outros lugares no Google corroborando esse ponto de vista, tive muita dificuldade, em contraste com procurar opiniões sobre a eficácia de gráficos de pizza e gráficos de dinamite. Então, eu gostaria de saber em que medida a caracterização dos mapas de calor fornecida no curso é válida e quando os fatores contra eles são menos importantes e mais importantes para um determinado contexto.

Os motivos apresentados foram:

  1. É difícil mapear cores em uma escala contínua.

    Existem algumas exceções a essa regra, portanto, isso geralmente não é um desagregador, mas no caso de mapas de calor, o problema é particularmente difícil, porque nossa percepção de uma cor muda dependendo das cores vizinhas. Portanto, os mapas de calor não são adequados para a visualização de resultados individuais, mesmo em pequenos conjuntos de dados. O que leva a:

  2. Responder a perguntas específicas usando um método de consulta de tabela geralmente não é viável, pois é impossível inferir com precisão suficiente o valor numérico correspondente a uma determinada cor.

  3. Frequentemente, os dados não são agrupados de maneira a trazer tendências.

    Sem esse agrupamento, muitas vezes é difícil ou impossível inferir algo sobre padrões gerais gerais.

  4. Os mapas de calor geralmente são usados ​​apenas para comunicar um "fator uau" ou apenas para parecer legal, especialmente ao usar um gradiente multicolorido, mas geralmente existem maneiras melhores de comunicar os dados.

Plotar dados contínuos em uma escala comum é sempre a melhor opção. Se houver um componente de tempo, a escolha mais óbvia é um gráfico de linhas.

Chill2Macht
fonte
15
As críticas aos "mapas de calor" se resumem à última linha de (4): exatamente quais são essas "melhores maneiras" de se comunicar? (Se não há maneiras melhores, então (1) - (3) dificilmente são relevantes.) Se o objetivo literalmente é comunicar os dados , obviamente existem maneiras melhores: anote os números. O objetivo de uma visualização, no entanto, raramente é comunicar os dados: em vez disso, é apoiar uma interpretação ou enviar uma mensagem. Quais interpretações sua fonte tem em mente e quais são as melhores maneiras de apresentá-las?
whuber
4
@whuber Como um complemento para isso - uma coisa muito boa sobre mapas de calor é que, em muitos casos, é fácil complementá-los exibindo os dados brutos (talvez o arredondamento apropriado) diretamente em cada bloco. Mesmo o uso de formatação condicional para a cor de fundo das células em uma planilha é uma espécie de "mapa de calor" muito eficaz e muito comum, em cujo contexto é difícil ver como elas podem ser melhoradas.
Silverfish 28/05
2
Meu comentário diz respeito apenas à crítica 1. É correto que a cor (matiz) não seja mapeada psicologicamente para uma escala ordenada, embora seja fisicamente (comprimento da onda). No entanto, adicionar uma dimensão redundante, como brilho, pode torná-los mais facilmente interpretados. Você pode ter um tom mais alto que o claro, mas usar cores como azul claro e vermelho escuro.
David Lane
2
Depende do contexto. Aqui está um ótimo exemplo de informações valiosas e acionáveis ​​obtidas de um mapa de calor, para as quais não consigo pensar em nenhum outro tipo de visualização de dados mais conveniente ou útil.
Jason C
5
A cor é supérflua (e, reconhecidamente, mal escolhida - é apenas o mapa de cores da imagem padrão em R), mas aqui está um exemplo sobre o jogo Minesweeper que eu trabalhei vários anos atrás. Achei o mapa de calor imediatamente esclarecedor, pois revela uma estrutura sobre o problema que fica intuitivamente claro quando você o vê e pensa por um momento, mas que não é imediatamente óbvio (para a maioria das pessoas) antes de ver o enredo.
cardeal

Respostas:

15

Não existe um "melhor" enredo para isso ou aquilo. Como você plota seus dados depende da mensagem que você deseja transmitir. Os gráficos comumente usados ​​têm a vantagem de que os usuários têm mais chances de lê-los. No entanto, isso não significa que eles sejam necessariamente a melhor escolha.

Em relação aos mapas de calor, ordenei minha resposta pelos supostos argumentos contra eles.

Anúncio 1) Se você não confiar nas cores como um canal de codificação, use o brilho, com uma escala que abrange tons de "cor" de cinza escuro a cinza claro. Na maioria das vezes, você deseja agrupar variáveis ​​contínuas (também consulte a 5), ​​para manter o número de cores baixo e facilitar a decodificação pelos usuários. Esta não é uma obrigação embora. Dê uma olhada neste exemplo , no qual a variável contínua não está no compartimento.

Anúncio 2) Certamente, eles não devem ser usados ​​como uma alternativa para procurar valores precisos. Os mapas de calor devem ser usados ​​principalmente para ilustrar padrões, não para substituir tabelas.

Anúncio 3 + 4) Não vejo como isso estaria relacionado apenas aos mapas de calor.

Anúncio 5) Os mapas de calor são idealmente, mas não necessariamente utilizados, com variáveis ​​discretas. Para variáveis ​​contínuas, os mapas de calor podem ser usados ​​como uma espécie de histograma bidimensional ou gráfico de barras, com binning adequado e brilho como um canal de codificação.

g3o2
fonte
2
Resposta incrível! Exceto que eu não sei o que "Anúncio" significa. Latino? Abreviação?
xan 28/05
1
Obrigado! "ad" significa "on" ou "concern", acho que vem do latim.
G3o2 28/05
Também nunca vi "ad" usado dessa maneira (cc, @xan). Pela sua descrição, acho que posso usar o ritmo .
gung - Restabelece Monica
1
Lembre-se também de corrigir os mapas de calor baseados em brilho com gama.
User253751 29/05
3
@gung Na verdade não, OMI. Não tem conotações, ao contrário do ritmo - apenas significa, além disso, adendo, em referência a, como para ... Sem mencionar que era universal no Ocidente, vindo do latim e amplamente utilizado em teologia e literatura científica e política, entre outros. outras coisas. Em um diálogo (correio), as duas partes o usariam para referenciar os argumentos para cada um dos pontos. Parece estar caindo em desagrado à medida que a linguagem escrita é cortada. A substituição usual é apenas usar "1.1" em vez de "Ad 1.1", o que pode ser um pouco confuso e parece um pouco rude para mim, mas tudo bem.
Luaan
5

Alguém não pode dizer que o Heat Map é o tipo de visualização menos eficaz. Prefiro dizer que depende de sua exigência. Em alguns casos, os mapas de calor são muito úteis. Digamos que você precise fazer um relatório sobre crimes em um país em termos de estado (ou cidade). Aqui você terá um enorme conjunto de dados que pode ter dependências de tempo.

Da mesma forma, digamos que você precise preparar um relatório sobre o consumo de eletricidade para as cidades. Nesses casos, você pode visualizar facilmente através do mapa de calor. Isso fará mais sentido e será menos complicado.

Então, em poucas palavras, se você tiver muitos dados contínuos e desejar fazer um relatório que possa apontar as respostas rapidamente, o melhor é o mapa de calor.

Manish Kumar
fonte
2
Para o consumo de energia, geralmente não há plotagem melhor do que um mapa de calor: argustech.be/wp-content/uploads/2012/04/heatmap.png Os fins de semana e o horário de trabalho saltam diretamente para o espectador. Você pode ver a carga de base, pode ver picos, pode ver quando eles acontecem. Você pode detectar qualquer padrão estranho em alguns segundos, por exemplo, se algum dispositivo elétrico estiver sempre ligado ou for iniciado cedo ou tarde demais.
Eric Duminil
4

A crítica 1 da pergunta original cobre a maior desvantagem - que é difícil para alguém que lê o mapa de calor decodificar as informações quantitativas que são transmitidas. Considere um gráfico de dispersão xy ou gráfico de pontos, em que a quantidade subjacente está diretamente relacionada à distância no gráfico - muito simples para interpretação.

Em um mapa de calor, por outro lado, a pessoa que lê o gráfico tem a liberdade de interpretar 10% 'mais vermelho' ou 'mais escuro' para sua própria satisfação. Além disso, está o problema das diferentes habilidades das pessoas em discernir cores e tonalidades para começar. Essas são desvantagens genuínas, mas não são universalmente fatais.

A terceira crítica, por outro lado, parece identificar inadvertidamente uma ocasião em que os mapas de calor são especialmente úteis - quando os dados são agrupados em um plano 2D, para que valores semelhantes em uma terceira dimensão apareçam como manchas de uma determinada tonalidade ou cor. Portanto, embora os mapas de calor sejam ineficazes em algumas coisas, eles são úteis para outros e devem permanecer na sua bolsa, da mesma forma que os golfistas costumam carregar cunhas afins ou similares, apesar de serem inúteis para dirigir ou colocar, ou os carpinteiros não desconsidere os martelos porque eles não são bons para cortar madeira.

Em geral, a visualização de dados deve ser vista como atividade iterativa que levará algum tempo, enquanto você tenta várias visualizações que destacam os recursos importantes dos dados, incluindo tentar mais de um tipo de visualização e, em seguida, experimentar para encontrar as melhores configurações em escolhas particulares. Também não se deve presumir que o resultado será uma visualização - algumas vezes, são necessárias várias visualizações de dados para destacar vários recursos importantes dos dados. Nesse contexto, haverá momentos em que, para recursos específicos de conjuntos de dados específicos, o mapa de calor será o mais eficaz e os clusters de comunicação, conforme descrito, podem ser um desses momentos. No geral, haverá ocasiões frequentes em que uma única visualização não pode fazer tudo e mais de uma será necessária.

Robert de Graaf
fonte
3

Como mencionado anteriormente, é realmente impróprio dizer que os mapas de calor são sempre ineficazes. Na verdade, eles são bastante eficazes em muitos casos.

Por exemplo, se você deseja visualizar dados 4D, é simples o suficiente realizar as três primeiras dimensões em muitos softwares de plotagem. No entanto, todo o conceito de 4D é bastante difícil de conceituar. Qual é a "quarta" direção / dimensão?

É aí que um mapa de calor pode ser eficaz, porque permitirá plotar as três primeiras dimensões no eixo de coordenadas, e a quarta pode ser visualizada empilhando um mapa de calor no seu plano plotado (ou linha, mas é menos provável).

Bottom line é que você precisa de contexto. O que você está procurando na sua visualização? Além disso, como colega, eu posso lhe dizer que esses cursos on-line tendem a ser muito triviais e inúteis. É muito melhor usá-los somente quando estiver procurando informações / ajuda sobre tópicos específicos, em vez de procurar ser ensinado sobre um assunto inteiro.

Boa sorte de qualquer maneira embora.

Abraham Horowitz
fonte
3

Por natureza, um mapa de calor exibe dados com duas variáveis ​​independentes contínuas (ou, não de maneira equivalente, uma variável independente de um espaço vetorial bidimensional) e uma variável dependente contínua. Para dados desse tipo, um mapa de calor é definitivamente um dos tipos mais eficazes de visualização de dados. Sim, ele tem seus problemas, mas isso é inevitável: você realmente tem apenas duas dimensões para trabalhar e um espaço tridimensional não pode ser mapeado para isso de maneira a preservar a estrutura ; portanto, você precisa de um truque, como mapear uma dimensão para colorir ou desenho de linhas de contorno etc.

R2X×Y|X||Y|, que é finito para uma variável categórica - em outras palavras, o produto cartesiano de duas variáveis ​​categóricas pode ser considerado como uma única variável categórica ! E sob essa luz, você também pode usar outras parcelas, que não têm os problemas de um mapa de calor.

Se você se encontra em uma situação em que um mapa de calor sobre duas variáveis ​​categóricas parece útil, é uma indicação de que essas provavelmente não são realmente variáveis ​​categóricas, mas variáveis ​​contínuas quantizadas.

à esquerda
fonte
4
Essa resposta é interessante, mas acho que dá pouca importância à noção de uso de mapas de calor com variáveis ​​categóricas. Por exemplo, pode-se classificar os níveis categóricos por suas contagens (ou alguma outra variável de classificação relevante) e depois usar um mapa de calor para visualizar a distribuição da junta ou alguma outra quantidade que varia com os níveis categóricos da junta. Isso pode estar associado a cópulas (e suas noções generalizadas). Tais visualizações, quando bem executadas, podem revelar uma estrutura real nos dados que, de outra forma, seriam muito difíceis de detectar. (...)
cardeal
(...) E essa abordagem é independente de qualquer noção (direta) de incorporar os níveis categóricos em um espaço euclidiano.
cardeal
Eu queria saber se você tem algum comentário sobre a prática de usar mapas de calor para dados de expressão gênica / microarray - esses parecem casos de uso de mapas de calor para 2 variáveis ​​categóricas e uma contínua para as quais as variáveis ​​categóricas não podem realmente ser interpretadas como variáveis ​​contínuas quantizadas. Ou acho que mapas de calor para matrizes de correlação de variáveis ​​categóricas em geral.
Chill2Macht
3

Os mapas de calor são ótimos em fornecer uma visão simplista de várias variáveis ​​de uma perspectiva de série temporal - os dados podem ser alterações absolutas ao longo do tempo ou padronizadas usando escores Z ou outros meios para examinar variáveis ​​com diferentes intervalos de medidas ou alterações relativas de subgrupos. Ele fornece uma visão visualmente notável de que é possível identificar correlações ou inversões e substituir uma infinidade de gráficos. Eles também podem ser usados ​​no pré-processamento para avaliar possíveis reduções de dimensionalidade - ou seja, fatoração ou PCA.

As variáveis ​​que intervêm mal e outros fatores podem ficar ocultos e ignorados ao usar essa abordagem para identificar correlações. Os mesmos aspectos ocultos ocorrem nos gráficos de linha - no entanto, dado o grande número de variáveis ​​-, minha experiência é que os mapas de calor trazem tanta informação que o usuário não considera os aspectos intermediários nem outros fatores ocultos.

Isto é de um cientista de dados de uma perspectiva progressista economista, com 20 anos no campo produzindo dados e encarregado de educar o público em geral com esses dados.

Paul Tulloch
fonte
1

Os mapas de calor são vantajosos sobre os gráficos de dispersão quando há muitos pontos de dados para visualização em um gráfico de dispersão. Isso pode ser mitigado em um gráfico de dispersão usando pontos de dados translúcidos, mas além de um certo limite, torna-se melhor resumir os dados.

Em deste blog postar um exemplo convincente de scatterplots sendo difícil interpretar é dado.

Um gráfico de dispersão pode representar apenas visualmente a densidade até um determinado limite - o limite de "pontos em todos os lugares" ...

Densidade de plotagem, não pontos

A solução é plotar a densidade de pontos no compartimento em vez dos pontos em si. Já conhecemos esse método em uma dimensão como o histograma.

Em duas dimensões, existem várias maneiras de fazê-lo. As formas do compartimento podem ser obtidas a partir de qualquer método de colocação uniforme do plano, como quadrados ou hexágonos. Para cada bloco, o número de pontos de dados dentro do bloco é contado. O azulejo recebe uma cor de acordo com o número de pontos.

Uma declaração semelhante dos documentos do ggplot2 no mapa de calor das contagens bin 2d :

Esta é uma alternativa útil para geom_point()na presença de overplotting.

Nos documentos de geom_point():

Overplotting

O maior problema potencial com um gráfico de dispersão é a plotagem excessiva: sempre que você tiver mais do que alguns pontos, pontos podem ser plotados um sobre o outro. Isso pode distorcer gravemente a aparência visual da trama. Não existe uma solução para esse problema, mas existem algumas técnicas que podem ajudar. Você pode adicionar informações adicionais com geom_smooth(), geom_quantile()ou geom_density_2d(). Se você tiver poucos valores x exclusivos, geom_boxplot()também poderá ser útil.

Alternativamente, você pode resumir o número de pontos em cada local e exibir que, de alguma maneira, usando geom_count(), geom_hex(), ou geom_density2d().

Outra técnica é tornar os pontos transparentes (por exemplo geom_point(alpha = 0.05)) ou muito pequenos (por exemplo geom_point(shape = ".")).

qwr
fonte