O que é um bom livro ou referência para visualização de dados?

7

Estou procurando algumas referências sobre como criar gráficos / visualizações de dados eficazes.

Encontrei vários livros que mostram como criar visualizações de dados usando certas ferramentas (como R / ggplot vs python / pandas), mas não é exatamente isso que estou procurando. Estou procurando uma referência que explique diferentes tipos de gráficos em relação a estatísticas / matemática. Eu quero mais teoria do que processo.

Quero conhecer os diferentes tipos de gráficos e como usá-los. Qualquer coisa ajuda!

Rico Kahler
fonte

Respostas:

11

Eu acho que o trabalho de William Cleveland será mais próximo do que você quer que o de Tufte. Cleveland escreveu dois livros:

  1. Visualizando dados (1993)
  2. Os elementos da representação gráfica de dados (1985)

O primeiro livro, em particular, pode ser o que você deseja. Aqui está a descrição de um editor:

Visualizar dados é sobre ferramentas de visualização que fornecem informações detalhadas sobre a estrutura dos dados. Existem ferramentas gráficas, como coplots, plotagens de múltiplos pontos e o algoritmo de contagem igual. Existem ferramentas de ajuste como loess e bisquare que ajustam equações, curvas não paramétricas e superfícies não paramétricas aos dados. Mas o livro é muito mais do que apenas um compêndio de ferramentas úteis. Ele transmite uma estratégia para análise de dados que enfatiza o uso da visualização para estudar minuciosamente a estrutura dos dados e verificar a validade dos modelos estatísticos ajustados aos dados. O resultado das ferramentas e da estratégia é um grande aumento no que você pode aprender com seus dados. O livro demonstra isso reanalisando muitos conjuntos de dados da literatura científica, revelando efeitos perdidos e modelos inadequados ajustados aos dados.

Um livro ainda mais teórico é The Grammar of Graphics, de Leland Wilkinson. A descrição:

Este livro foi escrito para estatísticos, cientistas da computação, geógrafos, pesquisadores e outros interessados ​​em visualizar dados. Ele apresenta uma base única para a produção de quase todos os gráficos quantitativos encontrados em revistas científicas, jornais, pacotes estatísticos e sistemas de visualização de dados. Embora os resultados tangíveis deste trabalho tenham sido várias bibliotecas de software de visualização, este livro enfoca as estruturas profundas envolvidas na produção de gráficos quantitativos a partir de dados. Quais são as regras subjacentes à produção de gráficos de pizza, gráficos de barras, gráficos de dispersão, gráficos de funções, mapas, mosaicos, e gráficos de radar? Os menos interessados ​​nos fundamentos teóricos e matemáticos ainda podem ter uma noção da riqueza e da estrutura do sistema, examinando os numerosos e frequentemente únicos gráficos coloridos que ele pode produzir. A segunda edição tem quase o dobro do tamanho do original, com seis novos capítulos e uma revisão substancial. Grande parte do material adicionado torna este livro adequado para cursos de pesquisa em visualização e gráficos estatísticos.

Este livro é muito teórico.

Peter Flom
fonte
2
2ª edição do livro Elements 1994. Eu eco fortemente esse endosso de Cleveland. O Tufte é ótimo, mas Cleveland fala mais diretamente e com muitos detalhes técnicos a qualquer pessoa que se preocupa estatisticamente. Acrescentarei que esses livros realmente não datam em nenhum sentido fundamental.
Nick Cox
2
Há uma teoria abrangente (ou subestimada) no livro de Wilkinson, que é melhor elogiada pelo fato de Hadley Wickham ter construído isso ao desenhar o seu ggplot2em R. Mas também é um ótimo livro para pular e desnatar.
22617 Nick Cox
6

Veja a série de livros escritos por Ed Tufte. Eles são discutidos pela wikipedia no artigo https://en.wikipedia.org/wiki/Edward_Tufte .

  1. A exibição visual de informações quantitativas. 1983; Segunda Edição 2001. Cheshire, CT: Graphics Press

  2. Visualizando informações. 1990. Cheshire, CT: Imprensa gráfica

  3. Explicações visuais: Imagens e quantidades, evidências e gráficos narrativos. 1997. Cheshire, CT: Imprensa Gráfica

  4. Evidência bonita. 2006. Cheshire, CT: Imprensa gráfica

Michael Chernick
fonte
Eu dei uma referência e minha resposta não é muito curta.
Michael R. Chernick
11
Esperamos que respostas a perguntas de "lista de" como esta incluam, no mínimo, um motivo convincente para a recomendação. As respostas que não fornecem razões geralmente são excluídas ou convertidas em comentários.
whuber
11
@whuber Eu dei uma resposta muito apropriada referenciando os três livros escritos por Edward Tufte. Você tem uma sugestão melhor?
Michael R. Chernick 13/02/19
11
Sim. Primeiro, indique cada livro separadamente, por título. Juntamente com essas indicações, descreva como a recomendação desse livro responde à pergunta. Que teoria ou teorias a Tufte adianta? De que perspectiva particular? Por que valeria a pena consultar esses textos? Como eles diferem entre si? Etc., etc.
whuber
2
Adicionei o segundo dos quatro (até o momento) dos livros auto-publicados de Tufte (observe que os gráficos são um tema secundário em seus livros anteriores). Não tentarei imputar o elogio de Michael.
Nick Cox
5

Correndo o risco de ser crucificado, aconselho contra Tufte, Wilkinson, Cleveland etc. e todos os outros clássicos, se você está apenas começando.

O motivo é o seguinte objetivo estabelecido por você (grifo nosso):

Estou procurando algumas referências sobre como criar gráficos / visualizações de dados eficazes.

Portanto, mesmo que você não queira explicitamente livros / tutoriais dependentes da linguagem, deseja que seu conhecimento seja aplicado em vez de um exercício teórico abstrato sobre o café. Começando com o que chamo de clássicos é como ler Shakespeare, porque você quer que seu idioma seja mais eloquente. As discussões nos livros são excelentes para lançar as bases para entender a visualização eficaz de dados; mas considerando os avanços tecnológicos até hoje - os livros não ajudam muito no desenvolvimento da inclinação aplicada (gramática dos gráficos - Wilkinson é a pequena exceção por causa da relevância, ggplot2mas nesse caso eu recomendaria a leitura de obras de Hadley Wickham , o autor do pacote).

Alguns bons recursos que você pode procurar são FlowingData (Nathan Yau), Perceptual Edge (Stephen Few) e Storytelling with Data (Cole Knaflic) e os livros dos autores do blog. O motivo é o seguinte:

  1. Estes trabalhos já abrangem a pesquisa dos clássicos
  2. O idioma é menos acadêmico e mais fácil de entender
  3. Os blogs atualizados regularmente funcionam como material suplementar aos livros

É uma pena que Aaron Koblin não tenha publicado nenhum livro sobre sua visão única sobre visualizações de dados grandes.

Não descarto a utilidade do trabalho de Tufte, Cleveland e Wilkinson, mas, depois de trabalharmos em alguns deles e ainda estarmos marginalmente melhores nas modernas ferramentas de visualização de dados, "Show me the Numbers", de Stephen Few, foi como um interruptor de luz.

DivyaJyoti Rajdev
fonte
4

Depende fortemente do idioma que você preferir. Como não estou usando o Python para visualização de dados com frequência, só posso recomendar livros relacionados à visualização de dados em R. Depois de escrever este post, reli sua pergunta e o Nr. 1, nr. 2 e talvez Nr. 4 pode ser o mais teórico. Embora Nr. 6 também explica aspectos teóricos especializados na visualização de técnicas de aprendizado de máquina não supervisionadas.

  1. R Graphics por Paul Murrell

O autor Paul Murrell tem uma parte significativa no desenvolvimento dos gráficos da linguagem R. Ele desenvolveu o conceito "Gramática de gráficos", que é o conceito subjacente à biblioteca ggplot2. O livro é bastante avançado, embora você não precise de muito pré-conhecimento necessário e bastante teórico. É o melhor livro para pessoas que realmente desejam entender os conceitos de visualização de dados em R, mas não o recomendo para iniciantes.

  1. Widgets HTML

É uma obrigação para a visualização interativa de dados. Várias bibliotecas JavaScript são traduzidas e adaptadas para R. Você pode incluir a maioria dos Widgets no RShiny, Markdown (renderizado como HTML) ou no console). Meus widgets HTML favoritos são

  • Plotly (Uma biblioteca sobre visualização de dados interativa que também está disponível para várias outras linguagens, como Python e Matlab)
  • Folheto (visualizações interativas com o Maps)
  • dygraph (que oferece uma ampla variedade para visualização interativa de séries temporais)
  • datatable (escrito por Yuhui Xe, do RStudio, que também escreveu o knitR e o pacote de bookdown. Prolífico por mostrar tabelas))

    1. Guia para criar belos gráficos em R

Este livro é bastante amigável para iniciantes. Seus exemplos são mostrados principalmente no ggplot2. Quando comecei a aprender técnicas avançadas de visualização de dados no RI, usei principalmente este e o site oficial do ggplot2.

  1. O site oficial do ggplot2

É o melhor ponto de partida para aprender o ggplot2, mas pode parecer esmagadoramente se você não estiver disposto a ser apaixonado e se não tiver muito tempo. O ggplot2 é incrível, mas pode ter uma curva de aprendizado acentuada, por exemplo, você não pode escrever o "+" no início da linha. Todos os conceitos teóricos também são explicados.

  1. Galeria oficial oficial

Shiny é a biblioteca R mais usada para criar aplicativos com R. Ele pode ser substituído por ferramentas de BI como o Tableau ou o Qlickview. shinyjs é uma grande extensão de shiny, que combina shiny com javascript, mas você também pode incluir HTML, CSS e JavaScript por conta própria.

  1. Análise de cluster em R

Este livro é dos mesmos autores que o Guia de belos gráficos (nº 3) . É um livro especializado para visualizar técnicas de aprendizado de máquina não supervisionadas e, particularmente, agrupamentos.

7. Fácil tutorial

No caso de você começar a visualizar e eu te sobrecarreguei um pouco.

Ferdi
fonte