Estou pesquisando conjuntos de dados existentes que podemos usar para testar várias técnicas de datavis que estamos pesquisando.
Conheço vários recursos como os incluídos no R (tente plot(Orange)
ou veja aqui ).
Mas eu gostaria de dar um passo adiante:
- Quais são os melhores conjuntos de dados do mundo real para testar uma ferramenta de visualização?
- Quais conjuntos de dados você usou em trabalhos acadêmicos ou slides de ensino sobre datavis?
- Qual é o melhor exemplo do mundo real para mostrar as vantagens da representação gráfica?
data-visualization
dataset
teaching
robermorales
fonte
fonte
Respostas:
Há um grande número de bancos de dados disponíveis na internet. Dependendo do assunto, você pode obter fontes diferentes.
Por exemplo, na área de desenvolvimento humano, você pode ter fontes de dados em (http://hdrstats.undp.org/):
http://hdrstats.undp.org/en/tables/default.html
Para observação das mudanças climáticas, existe uma web com dados climáticos de alta resolução em (http://www.ipcc-data.org/), por exemplo:
http://www.ipcc-data.org/obs/cru_ts2_1.html
Ambos os exemplos contêm dados reais, utilizados em artigos científicos publicados, com grande quantidade de dados. Dados relacionados ao tempo e / ou relacionados ao espaço. As possibilidades de visualização desses dados são infinitas.
fonte
Eu gosto de usar os conjuntos de dados Anscombe (também disponíveis em R) para mostrar a importância da plotagem ao fazer regressões. Se você não estiver familiarizado, obterá a mesma linha de regressão e diagnóstico dos quatro conjuntos de dados, mesmo que os conjuntos pareçam bastante diferentes. Você pode pegar os gráficos abaixo e transformá-los em gráficos residuais para ilustrar os problemas que você pode procurar nos resíduos após executar uma regressão.
fonte
Qualquer mesa grande. Por exemplo, imagens do google da "tabela oficial do censo". Você verá coisas como a abaixo .
Veja também Gelman et al. (2002) Vamos praticar o que pregamos: transformando tabelas em gráficos. American Statistician 56: 121-130
fonte
William S. Cleveland tem dois livros cheios de ótimos usos de gráficos, e os dados e o código para criar os gráficos em Visualizing Data estão em seu site.
fonte
Possivelmente você já sabe disso, mas aqui estão elas de qualquer maneira:
O UCI Machine Learning Repositor y possui muitos conjuntos de dados do mundo real acessíveis ao público.
O governo dos EUA torna público muitos de seus conjuntos de dados em data.gov .
Se você quiser alguns dados complicados de visualização, sugiro examinar uma tarefa de classificação. Parece-me que o Bag of Words definido no UCI MLR tem algumas propriedades agradáveis, mas posso estar enganado (já faz um tempo desde que o usei).
fonte
Aqui estão alguns.
Conjuntos de dados de amostra da ferramenta Sci2
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets Conjuntos de
dados de amostra fornecidos com o Sci2 Tool.
Conjuntos de dados de amostra do Tableau
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources Conjuntos de
dados de amostra para começar a usar o Tableau.
Conjuntos de dados públicos impressionantes
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Esta lista de fontes de dados públicas é coletada e organizada em blogs, respostas e respostas de usuários. A maioria dos conjuntos de dados é gratuita, outros não.
Este tópico é bastante antigo, esperando que esta colisão receba novas contribuições!
fonte
Acabei de perceber um monte de conjuntos de dados aqui:
http://www.inside-r.org/howto/finding-data-internet
Não sei se isso é útil?
Receio não ensinar visualização, por isso não posso comentar suas perguntas específicas.
fonte