Contexto:
Ao longo do tempo, adquiri um conjunto de heurísticas sobre como planejar efetivamente a associação entre duas variáveis numéricas. Eu imagino que a maioria das pessoas que trabalha com dados teria um conjunto de regras semelhante.
Exemplos de tais regras podem ser:
- Se uma das variáveis for inclinada positivamente, considere plotar esse eixo em uma escala de log.
- Se houver muitos pontos de dados (por exemplo, n> 1000), adote uma estratégia diferente, como usar alguma forma de transparência parcial ou amostrar os dados;
- Se uma das variáveis assume um número limitado de categorias discretas, considere o uso de um jitter ou um gráfico de girassol;
- Se houver três ou mais variáveis, considere usar uma matriz de gráficos de dispersão;
- Ajustar alguma forma de linha de tendência geralmente é útil;
- Ajuste o tamanho do caractere de plotagem para o tamanho da amostra (para n maior, use um caractere de plotagem menor);
- e assim por diante.
Questão:
Eu gostaria de poder indicar aos alunos uma página da web ou site que explica esses e outros truques para plotar efetivamente associações entre duas variáveis numéricas, talvez com exemplos.
- Existem páginas ou sites na internet que fazem um bom trabalho?
data-visualization
correlation
teaching
rule-of-thumb
scatterplot
Jeromy Anglim
fonte
fonte
Respostas:
Não consigo pensar em grandes recursos on-line, mas um bom capítulo de livro (e facilmente disponível para download) que narra como explorar visualmente um conjunto grande e multidimensional de dados de maneira ponderada é Brendan O'Connor e Lukas Biewald. capítulo (aviso: o link está diretamente no PDF) do Beautiful Data . O capítulo é particularmente útil como recurso de ensino, porque incorpora o código R à narrativa.
Além disso, após uma reflexão mais aprofundada, acho que o clássico "Some Graphic and Semigraphic Displays" de John Tukey (convenientemente publicado no site de Edward Tufte) é uma introdução realmente maravilhosa, embora um tanto idiossincrática, à visualização.
Por alguma razão, pareço pensar em capítulos de livros ...
fonte
Referências recentes:
Kelleher e Wagner 2011 "Dez diretrizes para visualização eficaz de dados em publicações científicas" fornecem um bom conjunto de regras. As regras, com referências (mas não o artigo completo), estão disponíveis sem assinatura, embora os estudantes universitários provavelmente tenham acesso total.
Nações Unidas 2009 "Tornando os dados significativos" fornece uma boa visão geral, com regras e exemplos, incluindo uma seção sobre 'tecnologias emergentes'.
Recursos mais antigos, mas relevantes
O SIGGGRAPH fornece alguns excelentes tutoriais, embora não haja exemplos, incluindo:
Senay e Inácio 1999 "Regras e Princípios da Visualização de Dados Científicos"
Domik 1999 "Tutorial de visualização"
Um bom resumo do Tufte pode ser encontrado aqui:
fonte