Pergunta: Quando (para quais tipos de problemas de visualização de dados) os mapas de calor são mais eficazes? (Em particular, mais eficaz do que todas as outras técnicas de visualização possíveis?)
Quando os mapas de calor são menos eficazes?
Existem padrões ou regras gerais comuns que se pode usar para decidir se é provável que um mapa de calor seja uma maneira eficaz de visualizar os dados e quando é provável que sejam ineficazes?
(Principalmente, tenho em mente mapas de calor para 2 variáveis categóricas e 1 variável contínua, mas também estou interessado em ouvir opiniões sobre outros tipos de mapas de calor.)
Contexto: Estou fazendo um curso on-line sobre visualização de dados e, no momento, eles estão discutindo tipos de plotagem ineficazes e superutilizados. Eles já mencionaram gráficos de dinamite e gráficos de pizza, e as razões apresentadas pelas quais elas são ineficazes e por que existem alternativas melhores para elas eram claras e convincentes para mim. Além disso, foi fácil encontrar outras fontes corroborando as opiniões dadas sobre gráficos de dinamite e gráficos de pizza.
No entanto, o curso também afirmou que "os mapas de calor são um dos tipos menos eficazes de visualização de dados". Uma paráfrase das razões pelas quais são dadas abaixo. Mas quando tentei encontrar outros lugares no Google corroborando esse ponto de vista, tive muita dificuldade, em contraste com procurar opiniões sobre a eficácia de gráficos de pizza e gráficos de dinamite. Então, eu gostaria de saber em que medida a caracterização dos mapas de calor fornecida no curso é válida e quando os fatores contra eles são menos importantes e mais importantes para um determinado contexto.
Os motivos apresentados foram:
É difícil mapear cores em uma escala contínua.
Existem algumas exceções a essa regra, portanto, isso geralmente não é um desagregador, mas no caso de mapas de calor, o problema é particularmente difícil, porque nossa percepção de uma cor muda dependendo das cores vizinhas. Portanto, os mapas de calor não são adequados para a visualização de resultados individuais, mesmo em pequenos conjuntos de dados. O que leva a:
Responder a perguntas específicas usando um método de consulta de tabela geralmente não é viável, pois é impossível inferir com precisão suficiente o valor numérico correspondente a uma determinada cor.
Frequentemente, os dados não são agrupados de maneira a trazer tendências.
Sem esse agrupamento, muitas vezes é difícil ou impossível inferir algo sobre padrões gerais gerais.
Os mapas de calor geralmente são usados apenas para comunicar um "fator uau" ou apenas para parecer legal, especialmente ao usar um gradiente multicolorido, mas geralmente existem maneiras melhores de comunicar os dados.
Plotar dados contínuos em uma escala comum é sempre a melhor opção. Se houver um componente de tempo, a escolha mais óbvia é um gráfico de linhas.
fonte
Respostas:
Não existe um "melhor" enredo para isso ou aquilo. Como você plota seus dados depende da mensagem que você deseja transmitir. Os gráficos comumente usados têm a vantagem de que os usuários têm mais chances de lê-los. No entanto, isso não significa que eles sejam necessariamente a melhor escolha.
Em relação aos mapas de calor, ordenei minha resposta pelos supostos argumentos contra eles.
Anúncio 1) Se você não confiar nas cores como um canal de codificação, use o brilho, com uma escala que abrange tons de "cor" de cinza escuro a cinza claro. Na maioria das vezes, você deseja agrupar variáveis contínuas (também consulte a 5), para manter o número de cores baixo e facilitar a decodificação pelos usuários. Esta não é uma obrigação embora. Dê uma olhada neste exemplo , no qual a variável contínua não está no compartimento.
Anúncio 2) Certamente, eles não devem ser usados como uma alternativa para procurar valores precisos. Os mapas de calor devem ser usados principalmente para ilustrar padrões, não para substituir tabelas.
Anúncio 3 + 4) Não vejo como isso estaria relacionado apenas aos mapas de calor.
Anúncio 5) Os mapas de calor são idealmente, mas não necessariamente utilizados, com variáveis discretas. Para variáveis contínuas, os mapas de calor podem ser usados como uma espécie de histograma bidimensional ou gráfico de barras, com binning adequado e brilho como um canal de codificação.
fonte
Alguém não pode dizer que o Heat Map é o tipo de visualização menos eficaz. Prefiro dizer que depende de sua exigência. Em alguns casos, os mapas de calor são muito úteis. Digamos que você precise fazer um relatório sobre crimes em um país em termos de estado (ou cidade). Aqui você terá um enorme conjunto de dados que pode ter dependências de tempo.
Da mesma forma, digamos que você precise preparar um relatório sobre o consumo de eletricidade para as cidades. Nesses casos, você pode visualizar facilmente através do mapa de calor. Isso fará mais sentido e será menos complicado.
Então, em poucas palavras, se você tiver muitos dados contínuos e desejar fazer um relatório que possa apontar as respostas rapidamente, o melhor é o mapa de calor.
fonte
A crítica 1 da pergunta original cobre a maior desvantagem - que é difícil para alguém que lê o mapa de calor decodificar as informações quantitativas que são transmitidas. Considere um gráfico de dispersão xy ou gráfico de pontos, em que a quantidade subjacente está diretamente relacionada à distância no gráfico - muito simples para interpretação.
Em um mapa de calor, por outro lado, a pessoa que lê o gráfico tem a liberdade de interpretar 10% 'mais vermelho' ou 'mais escuro' para sua própria satisfação. Além disso, está o problema das diferentes habilidades das pessoas em discernir cores e tonalidades para começar. Essas são desvantagens genuínas, mas não são universalmente fatais.
A terceira crítica, por outro lado, parece identificar inadvertidamente uma ocasião em que os mapas de calor são especialmente úteis - quando os dados são agrupados em um plano 2D, para que valores semelhantes em uma terceira dimensão apareçam como manchas de uma determinada tonalidade ou cor. Portanto, embora os mapas de calor sejam ineficazes em algumas coisas, eles são úteis para outros e devem permanecer na sua bolsa, da mesma forma que os golfistas costumam carregar cunhas afins ou similares, apesar de serem inúteis para dirigir ou colocar, ou os carpinteiros não desconsidere os martelos porque eles não são bons para cortar madeira.
Em geral, a visualização de dados deve ser vista como atividade iterativa que levará algum tempo, enquanto você tenta várias visualizações que destacam os recursos importantes dos dados, incluindo tentar mais de um tipo de visualização e, em seguida, experimentar para encontrar as melhores configurações em escolhas particulares. Também não se deve presumir que o resultado será uma visualização - algumas vezes, são necessárias várias visualizações de dados para destacar vários recursos importantes dos dados. Nesse contexto, haverá momentos em que, para recursos específicos de conjuntos de dados específicos, o mapa de calor será o mais eficaz e os clusters de comunicação, conforme descrito, podem ser um desses momentos. No geral, haverá ocasiões frequentes em que uma única visualização não pode fazer tudo e mais de uma será necessária.
fonte
Como mencionado anteriormente, é realmente impróprio dizer que os mapas de calor são sempre ineficazes. Na verdade, eles são bastante eficazes em muitos casos.
Por exemplo, se você deseja visualizar dados 4D, é simples o suficiente realizar as três primeiras dimensões em muitos softwares de plotagem. No entanto, todo o conceito de 4D é bastante difícil de conceituar. Qual é a "quarta" direção / dimensão?
É aí que um mapa de calor pode ser eficaz, porque permitirá plotar as três primeiras dimensões no eixo de coordenadas, e a quarta pode ser visualizada empilhando um mapa de calor no seu plano plotado (ou linha, mas é menos provável).
Bottom line é que você precisa de contexto. O que você está procurando na sua visualização? Além disso, como colega, eu posso lhe dizer que esses cursos on-line tendem a ser muito triviais e inúteis. É muito melhor usá-los somente quando estiver procurando informações / ajuda sobre tópicos específicos, em vez de procurar ser ensinado sobre um assunto inteiro.
Boa sorte de qualquer maneira embora.
fonte
Por natureza, um mapa de calor exibe dados com duas variáveis independentes contínuas (ou, não de maneira equivalente, uma variável independente de um espaço vetorial bidimensional) e uma variável dependente contínua. Para dados desse tipo, um mapa de calor é definitivamente um dos tipos mais eficazes de visualização de dados. Sim, ele tem seus problemas, mas isso é inevitável: você realmente tem apenas duas dimensões para trabalhar e um espaço tridimensional não pode ser mapeado para isso de maneira a preservar a estrutura ; portanto, você precisa de um truque, como mapear uma dimensão para colorir ou desenho de linhas de contorno etc.
Se você se encontra em uma situação em que um mapa de calor sobre duas variáveis categóricas parece útil, é uma indicação de que essas provavelmente não são realmente variáveis categóricas, mas variáveis contínuas quantizadas.
fonte
Os mapas de calor são ótimos em fornecer uma visão simplista de várias variáveis de uma perspectiva de série temporal - os dados podem ser alterações absolutas ao longo do tempo ou padronizadas usando escores Z ou outros meios para examinar variáveis com diferentes intervalos de medidas ou alterações relativas de subgrupos. Ele fornece uma visão visualmente notável de que é possível identificar correlações ou inversões e substituir uma infinidade de gráficos. Eles também podem ser usados no pré-processamento para avaliar possíveis reduções de dimensionalidade - ou seja, fatoração ou PCA.
As variáveis que intervêm mal e outros fatores podem ficar ocultos e ignorados ao usar essa abordagem para identificar correlações. Os mesmos aspectos ocultos ocorrem nos gráficos de linha - no entanto, dado o grande número de variáveis -, minha experiência é que os mapas de calor trazem tanta informação que o usuário não considera os aspectos intermediários nem outros fatores ocultos.
Isto é de um cientista de dados de uma perspectiva progressista economista, com 20 anos no campo produzindo dados e encarregado de educar o público em geral com esses dados.
fonte
Os mapas de calor são vantajosos sobre os gráficos de dispersão quando há muitos pontos de dados para visualização em um gráfico de dispersão. Isso pode ser mitigado em um gráfico de dispersão usando pontos de dados translúcidos, mas além de um certo limite, torna-se melhor resumir os dados.
Em deste blog postar um exemplo convincente de scatterplots sendo difícil interpretar é dado.
Uma declaração semelhante dos documentos do ggplot2 no mapa de calor das contagens bin 2d :
Nos documentos de
geom_point()
:fonte