Estou trabalhando em um projeto que envolve 14 variáveis e 345.000 observações para dados de habitação (itens como ano construído, metragem quadrada, preço vendido, município de residência, etc.). Estou preocupado em tentar encontrar boas técnicas gráficas e bibliotecas R que contenham boas técnicas de plotagem.
Já estou vendo o que no ggplot e no reticulado funcionará bem, e estou pensando em fazer gráficos de violino para algumas das minhas variáveis numéricas.
Que outros pacotes as pessoas recomendariam para exibir uma grande quantidade de variáveis numéricas ou do tipo fatorial de maneira clara, polida e, o mais importante, sucinta?
r
data-visualization
large-data
eda
Christopher Aden
fonte
fonte
Respostas:
O melhor "gráfico" é tão óbvio que ninguém o mencionou ainda: faça mapas. Os dados da moradia dependem fundamentalmente da localização espacial (de acordo com a antiga serra sobre imóveis), portanto, a primeira coisa a ser feita é fazer um mapa detalhado e claro de cada variável. Para fazer isso bem com um terço de um milhão de pontos, é realmente necessário um SIG de força industrial, que pode reduzir o trabalho do processo. Depois disso, faz sentido continuar e fazer gráficos de probabilidade e gráficos de caixas para explorar distribuições univariadas, e traçar matrizes de gráficos de dispersão e gráficos de caixas esquemáticos errantes, etc., para explorar dependências - mas os mapas sugerem imediatamente o que explorar, como modelar o relacionamentos de dados e como dividir os dados geograficamente em subconjuntos significativos.
fonte
ggplot2
(especialmente se você não precisar traçar limites do país), had.co.nz/ggplot2/coord_map.html . Caso contrário,maps
,gmaps
são melhores. Há tambémGeoXp
uma interface R para GRASS. BTW, Mondrian tem um plugin para dados geográfica :)lattice
'slevelplot
econtourplot
. O pacotefields
possui alguns recursos interessantes, incluindo oquiltplot
que é bom se seus dados não estiverem estritamente em uma grade. Ele também possui uma boa função de spline de chapa finaTps
para suavizar dados sem grade para uma grade. Quanto ao software GIS dedicado, o GRASS de alguma forma nunca faz sentido para mim, prefiro o QGIS.Eu recomendo dar uma olhada no GGobi , que também possui uma interface R, pelo menos para fins exploratórios. Ele possui várias exibições gráficas especialmente úteis para lidar com um grande número de observações e variáveis e para vinculá-las. Você pode começar assistindo a alguns vídeos na seção "Assista a uma demonstração" na página Aprenda GGobi .
Atualizar
Links para as ferramentas de Hadley Wickham para o GGobi, conforme sugerido por chl nos comentários:
fonte
DescribeDisplay
eclusterfly
.Eu sinto que você está realmente fazendo duas perguntas: 1) que tipos de visualizações usar e 2) que pacote R pode produzi-las.
No caso de que tipo de gráfico usar, existem muitos e isso depende de suas necessidades (por exemplo: tipos de variáveis - numéricos, fatores, geográficos, etc., e o tipo de conexão que você deseja exibir):
Agora sobre como fazê-lo. Um problema com muitos pontos de dados é o tempo até a plotagem ser criada. ggplot2, iplots, ggobi não são muito bons para muitos pontos de dados (pelo menos na minha experiência). Nesse caso, você pode querer se concentrar nas instalações gráficas da base R ou experimentar seus dados e usar essas outras ferramentas. Ou você pode esperar que as pessoas que desenvolvem iplots extreme (ou Acinonyx ) cheguem a um estágio avançado de lançamento.
fonte
rflowcyt
e Acinonyx.rflowcyt
foi descontinuado com os lançamentos recentes do Bioconductor, agora é recomendado o usoflowViz
. Enfim, ambos confiamlattice
.O Mondrian fornece recursos interativos e lida com conjuntos de dados bastante grandes (embora seja em Java).
Paraview inclui viz 2D / 3D. características.
fonte
iplots
citada por @Tal. Sobre o Paraview, você tem a opção de salvar uma captura de tela do seu viz.DescribeDisplay
é o caminho a percorrer para exportar a visualização dinâmica do GGobi, cran.r-project.org/web/packages/DescribeDisplay/index.html .Gostaria de chamar sua atenção, Coordenadas Paralelas: Geometria Multidimensional Visual e Suas Aplicações , que contém os mais recentes avanços e aplicações no campo.
O livro foi elogiado por Stephen Hawking, entre outros. As superfícies são descritas (usando a dualidade) por seus vetores normais em seus pontos. Ele contém aplicativos para controle de tráfego aéreo (prevenção automática de colisões - 3 patentes nos EUA), mineração de dados multivariada (em conjuntos de dados reais, alguns com centenas de variáveis), otimização multiobjetivo, controle de processos, displays inteligentes para cuidados intensivos, segurança, visualização de rede e recentemente grandes Dados.
fonte