O que é um bom livro ou referência para visualização de dados?
7
Estou procurando algumas referências sobre como criar gráficos / visualizações de dados eficazes.
Encontrei vários livros que mostram como criar visualizações de dados usando certas ferramentas (como R / ggplot vs python / pandas), mas não é exatamente isso que estou procurando. Estou procurando uma referência que explique diferentes tipos de gráficos em relação a estatísticas / matemática. Eu quero mais teoria do que processo.
Quero conhecer os diferentes tipos de gráficos e como usá-los. Qualquer coisa ajuda!
Eu acho que o trabalho de William Cleveland será mais próximo do que você quer que o de Tufte. Cleveland escreveu dois livros:
Visualizando dados (1993)
Os elementos da representação gráfica de dados (1985)
O primeiro livro, em particular, pode ser o que você deseja. Aqui está a descrição de um editor:
Visualizar dados é sobre ferramentas de visualização que fornecem informações detalhadas sobre a estrutura dos dados. Existem ferramentas gráficas, como coplots, plotagens de múltiplos pontos e o algoritmo de contagem igual. Existem ferramentas de ajuste como loess e bisquare que ajustam equações, curvas não paramétricas e superfícies não paramétricas aos dados. Mas o livro é muito mais do que apenas um compêndio de ferramentas úteis. Ele transmite uma estratégia para análise de dados que enfatiza o uso da visualização para estudar minuciosamente a estrutura dos dados e verificar a validade dos modelos estatísticos ajustados aos dados. O resultado das ferramentas e da estratégia é um grande aumento no que você pode aprender com seus dados. O livro demonstra isso reanalisando muitos conjuntos de dados da literatura científica, revelando efeitos perdidos e modelos inadequados ajustados aos dados.
Um livro ainda mais teórico é The Grammar of Graphics, de Leland Wilkinson. A descrição:
Este livro foi escrito para estatísticos, cientistas da computação, geógrafos, pesquisadores e outros interessados em visualizar dados. Ele apresenta uma base única para a produção de quase todos os gráficos quantitativos encontrados em revistas científicas, jornais, pacotes estatísticos e sistemas de visualização de dados. Embora os resultados tangíveis deste trabalho tenham sido várias bibliotecas de software de visualização, este livro enfoca as estruturas profundas envolvidas na produção de gráficos quantitativos a partir de dados. Quais são as regras subjacentes à produção de gráficos de pizza, gráficos de barras, gráficos de dispersão, gráficos de funções, mapas, mosaicos, e gráficos de radar? Os menos interessados nos fundamentos teóricos e matemáticos ainda podem ter uma noção da riqueza e da estrutura do sistema, examinando os numerosos e frequentemente únicos gráficos coloridos que ele pode produzir. A segunda edição tem quase o dobro do tamanho do original, com seis novos capítulos e uma revisão substancial. Grande parte do material adicionado torna este livro adequado para cursos de pesquisa em visualização e gráficos estatísticos.
2ª edição do livro Elements 1994. Eu eco fortemente esse endosso de Cleveland. O Tufte é ótimo, mas Cleveland fala mais diretamente e com muitos detalhes técnicos a qualquer pessoa que se preocupa estatisticamente. Acrescentarei que esses livros realmente não datam em nenhum sentido fundamental.
Nick Cox
2
Há uma teoria abrangente (ou subestimada) no livro de Wilkinson, que é melhor elogiada pelo fato de Hadley Wickham ter construído isso ao desenhar o seu ggplot2em R. Mas também é um ótimo livro para pular e desnatar.
Eu dei uma referência e minha resposta não é muito curta.
Michael R. Chernick
11
Esperamos que respostas a perguntas de "lista de" como esta incluam, no mínimo, um motivo convincente para a recomendação. As respostas que não fornecem razões geralmente são excluídas ou convertidas em comentários.
whuber
11
@whuber Eu dei uma resposta muito apropriada referenciando os três livros escritos por Edward Tufte. Você tem uma sugestão melhor?
Michael R. Chernick 13/02/19
11
Sim. Primeiro, indique cada livro separadamente, por título. Juntamente com essas indicações, descreva como a recomendação desse livro responde à pergunta. Que teoria ou teorias a Tufte adianta? De que perspectiva particular? Por que valeria a pena consultar esses textos? Como eles diferem entre si? Etc., etc.
whuber
2
Adicionei o segundo dos quatro (até o momento) dos livros auto-publicados de Tufte (observe que os gráficos são um tema secundário em seus livros anteriores). Não tentarei imputar o elogio de Michael.
Nick Cox
5
Correndo o risco de ser crucificado, aconselho contra Tufte, Wilkinson, Cleveland etc. e todos os outros clássicos, se você está apenas começando.
O motivo é o seguinte objetivo estabelecido por você (grifo nosso):
Estou procurando algumas referências sobre como criar gráficos / visualizações de dados eficazes.
Portanto, mesmo que você não queira explicitamente livros / tutoriais dependentes da linguagem, deseja que seu conhecimento seja aplicado em vez de um exercício teórico abstrato sobre o café. Começando com o que chamo de clássicos é como ler Shakespeare, porque você quer que seu idioma seja mais eloquente. As discussões nos livros são excelentes para lançar as bases para entender a visualização eficaz de dados; mas considerando os avanços tecnológicos até hoje - os livros não ajudam muito no desenvolvimento da inclinação aplicada (gramática dos gráficos - Wilkinson é a pequena exceção por causa da relevância, ggplot2mas nesse caso eu recomendaria a leitura de obras de Hadley Wickham , o autor do pacote).
Alguns bons recursos que você pode procurar são FlowingData (Nathan Yau), Perceptual Edge (Stephen Few) e Storytelling with Data (Cole Knaflic) e os livros dos autores do blog. O motivo é o seguinte:
Estes trabalhos já abrangem a pesquisa dos clássicos
O idioma é menos acadêmico e mais fácil de entender
Os blogs atualizados regularmente funcionam como material suplementar aos livros
É uma pena que Aaron Koblin não tenha publicado nenhum livro sobre sua visão única sobre visualizações de dados grandes.
Não descarto a utilidade do trabalho de Tufte, Cleveland e Wilkinson, mas, depois de trabalharmos em alguns deles e ainda estarmos marginalmente melhores nas modernas ferramentas de visualização de dados, "Show me the Numbers", de Stephen Few, foi como um interruptor de luz.
Depende fortemente do idioma que você preferir. Como não estou usando o Python para visualização de dados com frequência, só posso recomendar livros relacionados à visualização de dados em R. Depois de escrever este post, reli sua pergunta e o Nr. 1, nr. 2 e talvez Nr. 4 pode ser o mais teórico. Embora Nr. 6 também explica aspectos teóricos especializados na visualização de técnicas de aprendizado de máquina não supervisionadas.
O autor Paul Murrell tem uma parte significativa no desenvolvimento dos gráficos da linguagem R. Ele desenvolveu o conceito "Gramática de gráficos", que é o conceito subjacente à biblioteca ggplot2. O livro é bastante avançado, embora você não precise de muito pré-conhecimento necessário e bastante teórico. É o melhor livro para pessoas que realmente desejam entender os conceitos de visualização de dados em R, mas não o recomendo para iniciantes.
É uma obrigação para a visualização interativa de dados. Várias bibliotecas JavaScript são traduzidas e adaptadas para R. Você pode incluir a maioria dos Widgets no RShiny, Markdown (renderizado como HTML) ou no console). Meus widgets HTML favoritos são
Plotly (Uma biblioteca sobre visualização de dados interativa que também está disponível para várias outras linguagens, como Python e Matlab)
Folheto (visualizações interativas com o Maps)
dygraph (que oferece uma ampla variedade para visualização interativa de séries temporais)
datatable (escrito por Yuhui Xe, do RStudio, que também escreveu o knitR e o pacote de bookdown. Prolífico por mostrar tabelas))
Este livro é bastante amigável para iniciantes. Seus exemplos são mostrados principalmente no ggplot2. Quando comecei a aprender técnicas avançadas de visualização de dados no RI, usei principalmente este e o site oficial do ggplot2.
É o melhor ponto de partida para aprender o ggplot2, mas pode parecer esmagadoramente se você não estiver disposto a ser apaixonado e se não tiver muito tempo. O ggplot2 é incrível, mas pode ter uma curva de aprendizado acentuada, por exemplo, você não pode escrever o "+" no início da linha. Todos os conceitos teóricos também são explicados.
Shiny é a biblioteca R mais usada para criar aplicativos com R. Ele pode ser substituído por ferramentas de BI como o Tableau ou o Qlickview. shinyjs é uma grande extensão de shiny, que combina shiny com javascript, mas você também pode incluir HTML, CSS e JavaScript por conta própria.
Este livro é dos mesmos autores que o Guia de belos gráficos (nº 3) . É um livro especializado para visualizar técnicas de aprendizado de máquina não supervisionadas e, particularmente, agrupamentos.
ggplot2
em R. Mas também é um ótimo livro para pular e desnatar.Veja a série de livros escritos por Ed Tufte. Eles são discutidos pela wikipedia no artigo https://en.wikipedia.org/wiki/Edward_Tufte .
A exibição visual de informações quantitativas. 1983; Segunda Edição 2001. Cheshire, CT: Graphics Press
Visualizando informações. 1990. Cheshire, CT: Imprensa gráfica
Explicações visuais: Imagens e quantidades, evidências e gráficos narrativos. 1997. Cheshire, CT: Imprensa Gráfica
Evidência bonita. 2006. Cheshire, CT: Imprensa gráfica
fonte
Correndo o risco de ser crucificado, aconselho contra Tufte, Wilkinson, Cleveland etc. e todos os outros clássicos, se você está apenas começando.
O motivo é o seguinte objetivo estabelecido por você (grifo nosso):
Portanto, mesmo que você não queira explicitamente livros / tutoriais dependentes da linguagem, deseja que seu conhecimento seja aplicado em vez de um exercício teórico abstrato sobre o café. Começando com o que chamo de clássicos é como ler Shakespeare, porque você quer que seu idioma seja mais eloquente. As discussões nos livros são excelentes para lançar as bases para entender a visualização eficaz de dados; mas considerando os avanços tecnológicos até hoje - os livros não ajudam muito no desenvolvimento da inclinação aplicada (gramática dos gráficos - Wilkinson é a pequena exceção por causa da relevância,
ggplot2
mas nesse caso eu recomendaria a leitura de obras de Hadley Wickham , o autor do pacote).Alguns bons recursos que você pode procurar são FlowingData (Nathan Yau), Perceptual Edge (Stephen Few) e Storytelling with Data (Cole Knaflic) e os livros dos autores do blog. O motivo é o seguinte:
É uma pena que Aaron Koblin não tenha publicado nenhum livro sobre sua visão única sobre visualizações de dados grandes.
Não descarto a utilidade do trabalho de Tufte, Cleveland e Wilkinson, mas, depois de trabalharmos em alguns deles e ainda estarmos marginalmente melhores nas modernas ferramentas de visualização de dados, "Show me the Numbers", de Stephen Few, foi como um interruptor de luz.
fonte
Depende fortemente do idioma que você preferir. Como não estou usando o Python para visualização de dados com frequência, só posso recomendar livros relacionados à visualização de dados em R. Depois de escrever este post, reli sua pergunta e o Nr. 1, nr. 2 e talvez Nr. 4 pode ser o mais teórico. Embora Nr. 6 também explica aspectos teóricos especializados na visualização de técnicas de aprendizado de máquina não supervisionadas.
O autor Paul Murrell tem uma parte significativa no desenvolvimento dos gráficos da linguagem R. Ele desenvolveu o conceito "Gramática de gráficos", que é o conceito subjacente à biblioteca ggplot2. O livro é bastante avançado, embora você não precise de muito pré-conhecimento necessário e bastante teórico. É o melhor livro para pessoas que realmente desejam entender os conceitos de visualização de dados em R, mas não o recomendo para iniciantes.
É uma obrigação para a visualização interativa de dados. Várias bibliotecas JavaScript são traduzidas e adaptadas para R. Você pode incluir a maioria dos Widgets no RShiny, Markdown (renderizado como HTML) ou no console). Meus widgets HTML favoritos são
datatable (escrito por Yuhui Xe, do RStudio, que também escreveu o knitR e o pacote de bookdown. Prolífico por mostrar tabelas))
Este livro é bastante amigável para iniciantes. Seus exemplos são mostrados principalmente no ggplot2. Quando comecei a aprender técnicas avançadas de visualização de dados no RI, usei principalmente este e o site oficial do ggplot2.
É o melhor ponto de partida para aprender o ggplot2, mas pode parecer esmagadoramente se você não estiver disposto a ser apaixonado e se não tiver muito tempo. O ggplot2 é incrível, mas pode ter uma curva de aprendizado acentuada, por exemplo, você não pode escrever o "+" no início da linha. Todos os conceitos teóricos também são explicados.
Shiny é a biblioteca R mais usada para criar aplicativos com R. Ele pode ser substituído por ferramentas de BI como o Tableau ou o Qlickview. shinyjs é uma grande extensão de shiny, que combina shiny com javascript, mas você também pode incluir HTML, CSS e JavaScript por conta própria.
Este livro é dos mesmos autores que o Guia de belos gráficos (nº 3) . É um livro especializado para visualizar técnicas de aprendizado de máquina não supervisionadas e, particularmente, agrupamentos.
7. Fácil tutorial
No caso de você começar a visualizar e eu te sobrecarreguei um pouco.
fonte
R for Data Science de Garret Grolemund e Hadley Wickham
As 50 principais visualizações do ggplot2
Galeria do Gráfico R
r4stats.com
fonte