Normalmente, faço minhas próprias escolhas idiossincráticas ao preparar parcelas. No entanto, gostaria de saber se existem práticas recomendadas para gerar plotagens.
Nota: O comentário de Rob para uma resposta a esta pergunta é muito relevante aqui.
data-visualization
references
usuário28
fonte
fonte
SO
: stackoverflow.com/questions/6973394/...Poderíamos ficar aqui o dia inteiro, denotando as melhores práticas, mas você deve começar lendo o Tufte. Minha recomendação principal:
Mantenha simples.
Muitas vezes, as pessoas tentam carregar seus gráficos com informações. Mas você realmente deve ter apenas uma idéia principal que está tentando transmitir e, se alguém não receber sua mensagem quase imediatamente, deve repensar como a apresentou. Portanto, não comece a trabalhar no seu gráfico até que a mensagem em si seja clara. A navalha de Occam também se aplica aqui.
fonte
Uma regra prática que nem sempre sigo, mas que é útil em algumas ocasiões, é levar em consideração que é provável que sua trama em algum momento no futuro seja
Você precisa tentar tornar suas plotagens claras o suficiente para que, mesmo que elas sejam imprecisas no futuro, as informações que a trama está tentando transmitir ainda sejam legíveis.
fonte
Além de transmitir uma mensagem clara, sempre tento me lembrar da conspiração:
Eu configurei meu software de plotagem (matplotlib, ROOT ou root2matplotlib) para fazer a maior parte desse direito por padrão. Antes de usar,
gnuplot
precisava de cuidados extras aqui.fonte
No campo da física, existe uma regra de que todo o artigo / relatório seja compreensível apenas com uma rápida olhada nas parcelas. Por isso, aconselho principalmente que sejam auto-explicativos.
Isso também implica que você deve sempre verificar se o seu público está familiarizado com algum tipo de enredo - eu cometi um grande erro ao supor que todo cientista sabe o que são gráficos de caixa e, em seguida, perdi uma hora para explicá-lo.
fonte
Aqui estão minhas diretrizes, com base nos erros mais comuns que vejo (além de todos os outros pontos positivos mencionados)
fonte
Dê uma olhada na biblioteca de gráficos R, ggplot2. Os detalhes estão na página da web http://had.co.nz/ggplot2/ Este pacote gera gráficos padrão muito bons, que seguem os princípios Tufte, as diretrizes de Cleveland e o pacote de cores de Ihaka.
fonte
Se estiver plotando em cores, considere que as pessoas daltônicas podem ter problemas para distinguir os elementos apenas pela cor. Tão:
fonte
Essas são sugestões maravilhosas. Reunimos muito material em http://biostat.mc.vanderbilt.edu/StatGraphCourse . Um grupo de estatísticos na indústria farmacêutica, na academia e na FDA também está criando um recurso que será muito útil para ensaios clínicos e pesquisas relacionadas. Muito material novo será revelado em um mês, mas já existe muito - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph
Meu livro gráfico pessoal favorito é Elements of Graphing Data de William Cleveland.
Em termos de software, na minha opinião, é difícil vencer os pacotes ggplot2 e treliça do R. Stata também suporta alguns gráficos excelentes.
fonte
Também depende de onde você não deseja publicar seus gráficos. Você economizará muito trabalho consultando o guia dos autores antes de fazer planos para uma revista.
Salve também os gráficos em um formato fácil de modificar ou salve o código que você usou para criá-los. As chances são de que você precise fazer correções.
fonte
Não use gráficos de dinamite: http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html , use gráficos de violino ou similares (família de boxplots)
fonte
As outras respostas são muito formuladas para serem convincentes, então deixe-me dar uma resposta mais geral. Eu luto com essa questão há um tempo. Eu ofereço este processo:
Sou cético em relação a alegações gerais como "mantenha as coisas simples" - o que isso significa? Bem, isso depende da audiência. Algumas audiências vão adorar o estilo Tufte. Mas algumas audiências apreciam um pouco de lixo de gráficos de vez em quando. Algumas pessoas estão entediadas com gráficos de dispersão. Algumas pessoas gostam de fundos coloridos. É tão errado envolvê-los um pouco, mesmo que você comprometa a pureza "estética"? Cabe a você decidir.
A reação do seu público será um feedback importante, mas não o único. Se você encontrar uma maneira de avaliar o entendimento deles antes e depois da sua apresentação, começará a entender o impacto que causou.
A resposta "correta" dependerá desses tipos de perguntas:
Que mídia você estará usando?
Você está criando gráficos estáticos ou interativos?
Você está tentando contar uma história predefinida (exposição) ou incentivar a experimentação (exploração)?
Até que ponto você deseja que o público tire suas próprias conclusões?
Até que ponto você deseja que o público acompanhe e seja convencido por sua história?
Até que ponto você deseja que o público desafie suas descobertas?
Em resumo, projete seus materiais deliberadamente, de acordo com sua mensagem, público e restrições.
fonte
Parece-me que uma coisa me lembro de Tufte mencionando, que não está nas outras respostas, é o mapeamento - isto é, posição, direção, tamanho etc. no seu gráfico representam a realidade . O que está no gráfico deve estar no mundo real. O que é grande deve ser grande (tendo em mente que as áreas devem representar áreas e volumes de volumes. Nunca tente representar um valor escalar por uma área, é altamente ambíguo!). Isso também se aplica a cores, formas, etc., se forem relevantes.
Um exemplo interessante é o gráfico "saia da série" aqui: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Embora tecnicamente esteja correto e um comprimento de saia "mais alto" ocupe uma posição mais alta no gráfico, na verdade é bastante confuso, porque o comprimento da saia começa do topo e desce (ao contrário dos humanos ou das árvores, onde medimos a altura do chão). Portanto, o aumento do comprimento da saia na verdade representa um valor mais baixo :
Como sempre, existem dificuldades. Por exemplo, geralmente consideramos o tempo para avançar e, no oeste, pelo menos, lemos da esquerda para a direita, portanto nossos gráficos de séries temporais também costumam fluir da esquerda para a direita à medida que o tempo aumenta. Então, o que acontece se você deseja representar algo que é melhor representado lateralmente (por exemplo, medidas leste-oeste de algo) ao longo do tempo? Nesse caso, você precisa comprometer e retratar o tempo subindo ou descendo (que depende novamente das percepções culturais, eu acho), ou optar por mapear sua variável lateral para cima / baixo no gráfico.
fonte
Depende da maneira como as parcelas serão discutidas.
Por exemplo, se estou enviando parcelas para uma reunião de grupo que será realizada com pessoas de diferentes locais, prefiro reuni-las no Powerpoint, em vez de no Excel, para facilitar a alternância.
Para chamadas técnicas individuais, colocarei algo no excel para que o cliente possa mover um gráfico de lado e visualizar os dados brutos. Ou posso inserir valores p nas células ao longo dos coeficientes de regressão lateral, por exemplo
Lembre-se: os lotes são baratos, especialmente para uma apresentação de slides ou por e-mail para um grupo. Eu prefiro fazer 10 gráficos claros que podemos percorrer do que 5 gráficos onde tento colocar coortes distintas (por exemplo, "machos e fêmeas") no mesmo gráfico.
fonte
Eu acrescentaria que a escolha do gráfico deve refletir o tipo de teste estatístico usado para analisar os dados. Em outras palavras, quaisquer que sejam as características dos dados usadas para análise devem ser mostradas visualmente - para que você mostre erros médios e padrão se você usou um teste t, mas boxplots se você usou um teste de Mann-Whitney.
fonte