Mapa de calor em matplotlib com pcolor?

100

Eu gostaria de fazer um mapa de calor como este (mostrado em FlowingData ): mapa de calor

Os dados de origem estão aqui , mas dados e rótulos aleatórios podem ser usados, ou seja,

import numpy
column_labels = list('ABCD')
row_labels = list('WXYZ')
data = numpy.random.rand(4,4)

Fazer o mapa de calor é bastante fácil em matplotlib:

from matplotlib import pyplot as plt
heatmap = plt.pcolor(data)

E eu até encontrei argumentos de um mapa de cores que parecem certos:heatmap = plt.pcolor(data, cmap=matplotlib.cm.Blues)

Mas, além disso, não consigo descobrir como exibir rótulos para as colunas e linhas e exibir os dados na orientação adequada (origem no canto superior esquerdo em vez de inferior esquerdo).

Todas as tentativas de manipulação heatmap.axes(por exemplo heatmap.axes.set_xticklabels = column_labels) falharam. O que estou perdendo aqui?

Jason Sundram
fonte
Há muitas sobreposições com esta questão do mapa de calor - pode haver uma boa informação para você lá.
John Lyon
As técnicas de rótulo desta postagem podem ajudar stackoverflow.com/questions/6352740/matplotlib-label-each-bin
tacaswell

Respostas:

123

Já é tarde, mas aqui está minha implementação em python do mapa de calor da NBA fluindo dados.

atualizado: 04/01/2014 : obrigado a todos

# -*- coding: utf-8 -*-
# <nbformat>3.0</nbformat>

# ------------------------------------------------------------------------
# Filename   : heatmap.py
# Date       : 2013-04-19
# Updated    : 2014-01-04
# Author     : @LotzJoe >> Joe Lotz
# Description: My attempt at reproducing the FlowingData graphic in Python
# Source     : http://flowingdata.com/2010/01/21/how-to-make-a-heatmap-a-quick-and-easy-solution/
#
# Other Links:
#     http://stackoverflow.com/questions/14391959/heatmap-in-matplotlib-with-pcolor
#
# ------------------------------------------------------------------------

import matplotlib.pyplot as plt
import pandas as pd
from urllib2 import urlopen
import numpy as np
%pylab inline

page = urlopen("http://datasets.flowingdata.com/ppg2008.csv")
nba = pd.read_csv(page, index_col=0)

# Normalize data columns
nba_norm = (nba - nba.mean()) / (nba.max() - nba.min())

# Sort data according to Points, lowest to highest
# This was just a design choice made by Yau
# inplace=False (default) ->thanks SO user d1337
nba_sort = nba_norm.sort('PTS', ascending=True)

nba_sort['PTS'].head(10)

# Plot it out
fig, ax = plt.subplots()
heatmap = ax.pcolor(nba_sort, cmap=plt.cm.Blues, alpha=0.8)

# Format
fig = plt.gcf()
fig.set_size_inches(8, 11)

# turn off the frame
ax.set_frame_on(False)

# put the major ticks at the middle of each cell
ax.set_yticks(np.arange(nba_sort.shape[0]) + 0.5, minor=False)
ax.set_xticks(np.arange(nba_sort.shape[1]) + 0.5, minor=False)

# want a more natural, table-like display
ax.invert_yaxis()
ax.xaxis.tick_top()

# Set the labels

# label source:https://en.wikipedia.org/wiki/Basketball_statistics
labels = [
    'Games', 'Minutes', 'Points', 'Field goals made', 'Field goal attempts', 'Field goal percentage', 'Free throws made', 'Free throws attempts', 'Free throws percentage',
    'Three-pointers made', 'Three-point attempt', 'Three-point percentage', 'Offensive rebounds', 'Defensive rebounds', 'Total rebounds', 'Assists', 'Steals', 'Blocks', 'Turnover', 'Personal foul']

# note I could have used nba_sort.columns but made "labels" instead
ax.set_xticklabels(labels, minor=False)
ax.set_yticklabels(nba_sort.index, minor=False)

# rotate the
plt.xticks(rotation=90)

ax.grid(False)

# Turn off all the ticks
ax = plt.gca()

for t in ax.xaxis.get_major_ticks():
    t.tick1On = False
    t.tick2On = False
for t in ax.yaxis.get_major_ticks():
    t.tick1On = False
    t.tick2On = False

A saída é semelhante a esta: mapa de calor nba semelhante a dados fluidos

Há um notebook ipython com todo esse código aqui . Eu aprendi muito com 'overflow, então espero que alguém ache isso útil.

BubbleGuppies
fonte
1
O código acima não foi executado no notebook iPythnon. Eu fiz algumas pequenas modificações, alterando nba_sort = nba_norm.sort ('PTS', ascendente = Verdadeiro, local = Verdadeiro) para nba_sort = nba_norm.copy () nba_sort.sort ('PTS', crescente = Verdadeiro, local = Verdadeiro) já que a classificação funciona por efeito colateral, não por retorno de função! Obrigado pelo maravilhoso exemplo do conceret!
Yu Shen
1
Hmmm ... você parece estar correto. Não tenho certeza do que se trata. Vou corrigir o código. Obrigado!
BubbleGuppies
Qual seria a maneira mais fácil de fazer um gráfico como este, mas exibir o valor da estatística na tabela. Ou seja, eu quero fazer um pcolorassim, mas que também tem valores numéricos mostrados. OU: Eu quero fazer um matplotlib tableque colore suas células. Já vi soluções para o outro problema, e elas são esteticamente feias. Isso parece ótimo, se eu soubesse como sobrepor os números.
8one6 de
Sim. Eu tropecei no meu caminho para responder à pergunta de outra pessoa: stackoverflow.com/a/21167108/2501018
8one6
@joelotz Você estaria disposto a contribuir com uma versão (modificada) disso para a documentação do matplotlib? Em caso afirmativo, basta abrir um PR ou enviar um ping por e-mail (veja meu perfil).
tacaswell
12

O módulo python seaborn é baseado em matplotlib e produz um mapa de calor muito bom.

Abaixo está uma implementação com seaborn, projetada para o notebook ipython / jupyter.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
# import the data directly into a pandas dataframe
nba = pd.read_csv("http://datasets.flowingdata.com/ppg2008.csv", index_col='Name  ')
# remove index title
nba.index.name = ""
# normalize data columns
nba_norm = (nba - nba.mean()) / (nba.max() - nba.min())
# relabel columns
labels = ['Games', 'Minutes', 'Points', 'Field goals made', 'Field goal attempts', 'Field goal percentage', 'Free throws made', 
          'Free throws attempts', 'Free throws percentage','Three-pointers made', 'Three-point attempt', 'Three-point percentage', 
          'Offensive rebounds', 'Defensive rebounds', 'Total rebounds', 'Assists', 'Steals', 'Blocks', 'Turnover', 'Personal foul']
nba_norm.columns = labels
# set appropriate font and dpi
sns.set(font_scale=1.2)
sns.set_style({"savefig.dpi": 100})
# plot it out
ax = sns.heatmap(nba_norm, cmap=plt.cm.Blues, linewidths=.1)
# set the x-axis labels on the top
ax.xaxis.tick_top()
# rotate the x-axis labels
plt.xticks(rotation=90)
# get figure (usually obtained via "fig,ax=plt.subplots()" with matplotlib)
fig = ax.get_figure()
# specify dimensions and save
fig.set_size_inches(15, 20)
fig.savefig("nba.png")

O resultado é o seguinte: mapa de calor nba marítimo Usei o mapa de cores matplotlib Blues, mas pessoalmente acho as cores padrão muito bonitas. Usei matplotlib para girar os rótulos do eixo x, pois não consegui encontrar a sintaxe do mar. Conforme observado por grexor, foi necessário especificar as dimensões (fig.set_size_inches) por tentativa e erro, o que achei um pouco frustrante.

Conforme observado por Paul H, você pode adicionar facilmente os valores aos mapas de calor (annot = True), mas, neste caso, não acho que isso tenha melhorado a figura. Vários trechos de código foram retirados da excelente resposta de joelotz.

Mark Teese
fonte
11

O principal problema é que primeiro você precisa definir a localização de seus tiques xey. Além disso, ajuda a usar a interface mais orientada a objetos para matplotlib. Ou seja, interaja com o axesobjeto diretamente.

import matplotlib.pyplot as plt
import numpy as np
column_labels = list('ABCD')
row_labels = list('WXYZ')
data = np.random.rand(4,4)
fig, ax = plt.subplots()
heatmap = ax.pcolor(data)

# put the major ticks at the middle of each cell, notice "reverse" use of dimension
ax.set_yticks(np.arange(data.shape[0])+0.5, minor=False)
ax.set_xticks(np.arange(data.shape[1])+0.5, minor=False)


ax.set_xticklabels(row_labels, minor=False)
ax.set_yticklabels(column_labels, minor=False)
plt.show()

Espero que ajude.

Paul H
fonte
Obrigado, @Paul H, funciona lindamente. Eu estava usando a heatmap.axespropriedade, que por algum motivo não faz nada.
Jason Sundram
Você sabe como mover os rótulos do eixo x para que fiquem no topo? Tentei o óbvio ax.xaxis.set_label_position('top')sem sucesso.
Jason Sundram
@JasonSundram Você deveria abrir uma nova questão para mover o posicionamento da etiqueta, porque isso deveria funcionar e é estranho que não funcione.
tacaswell
1
@tcaswell, bom ponto. Nova pergunta aqui: stackoverflow.com/questions/14406214/…
Jason Sundram
1
@ Tgsmith61591 Eu usaria a função de mapa de calor do seaborn, configurando annot=Truequando chamado ( stanford.edu/~mwaskom/software/seaborn/generated/… )
Paul H
3

Alguém editou esta pergunta para remover o código que eu usei, então fui forçado a adicioná-la como uma resposta. Obrigado a todos que participaram respondendo a esta pergunta! Acho que a maioria das outras respostas é melhor do que este código, estou apenas deixando isso aqui para fins de referência.

Com agradecimentos a Paul H e unutbu (que respondeu a esta pergunta ), tenho uma saída de aparência muito boa:

import matplotlib.pyplot as plt
import numpy as np
column_labels = list('ABCD')
row_labels = list('WXYZ')
data = np.random.rand(4,4)
fig, ax = plt.subplots()
heatmap = ax.pcolor(data, cmap=plt.cm.Blues)

# put the major ticks at the middle of each cell
ax.set_xticks(np.arange(data.shape[0])+0.5, minor=False)
ax.set_yticks(np.arange(data.shape[1])+0.5, minor=False)

# want a more natural, table-like display
ax.invert_yaxis()
ax.xaxis.tick_top()

ax.set_xticklabels(row_labels, minor=False)
ax.set_yticklabels(column_labels, minor=False)
plt.show()

E aqui está o resultado:

Mapa de calor Matplotlib

Jason Sundram
fonte