Conjuntos de dados para exemplos de visualização de dados, ensino e pesquisa

9

Estou pesquisando conjuntos de dados existentes que podemos usar para testar várias técnicas de datavis que estamos pesquisando.

Conheço vários recursos como os incluídos no R (tente plot(Orange)ou veja aqui ).

Mas eu gostaria de dar um passo adiante:

  • Quais são os melhores conjuntos de dados do mundo real para testar uma ferramenta de visualização?
  • Quais conjuntos de dados você usou em trabalhos acadêmicos ou slides de ensino sobre datavis?
  • Qual é o melhor exemplo do mundo real para mostrar as vantagens da representação gráfica?
robermorales
fonte
2
Muitos bons exemplos do mundo real, com alguns dos projetos vinculados fornecendo os conjuntos de dados (mas a maioria não fornece, infelizmente): infosthetics.com
WSkid
11
Você está procurando expressamente conjuntos de dados gratuitos ?
Fomite 6/10/11
3
A visualização depende do contexto e do público (entre outras coisas), sugerindo que "o melhor" é ambíguo nesse contexto. Você pode obter respostas mais focadas e pertinentes, indicando quais "técnicas" você está pesquisando.
whuber
11
Técnicas @whuber, sobre automação de visualização. Melhor, para explicar. Melhor, para referência.
Robertmorales #
@EpiGrad Sim, o mais gratuito possível.
Robertmorales #

Respostas:

5

Há um grande número de bancos de dados disponíveis na internet. Dependendo do assunto, você pode obter fontes diferentes.

Por exemplo, na área de desenvolvimento humano, você pode ter fontes de dados em (http://hdrstats.undp.org/):

http://hdrstats.undp.org/en/tables/default.html

Para observação das mudanças climáticas, existe uma web com dados climáticos de alta resolução em (http://www.ipcc-data.org/), por exemplo:

http://www.ipcc-data.org/obs/cru_ts2_1.html

Ambos os exemplos contêm dados reais, utilizados em artigos científicos publicados, com grande quantidade de dados. Dados relacionados ao tempo e / ou relacionados ao espaço. As possibilidades de visualização desses dados são infinitas.

Jose Zubcoff
fonte
Qual dos possíveis conjuntos de dados dessas fontes magníficas você mais gosta? obrigado
robermorales 11/11
11
Depende da adequação ao "gosto" da visualização. Por exemplo, para explorar / mostrar séries temporais, a web do IPCC possui dados suficientes e é amplamente usada (obviamente para analisar as mudanças climáticas). Para mostrar dados espaciais, o site de Desenvolvimento Humano contém muitos dados relacionados ao espaço, além de dados relacionados a Tempo.
Jose Zubcoff 11/11
Seu primeiro link está quebrado (erro de DNS).
horaceT
Infelizmente, o primeiro link foi quebrado (5 anos depois), mas há muitos dados abertos por aí: kaggle.com/datasets data.okfn.org/data data.gov data.europa.eu/euodp/en/data
Jose Zubcoff
9

Eu gosto de usar os conjuntos de dados Anscombe (também disponíveis em R) para mostrar a importância da plotagem ao fazer regressões. Se você não estiver familiarizado, obterá a mesma linha de regressão e diagnóstico dos quatro conjuntos de dados, mesmo que os conjuntos pareçam bastante diferentes. Você pode pegar os gráficos abaixo e transformá-los em gráficos residuais para ilustrar os problemas que você pode procurar nos resíduos após executar uma regressão.

Conjuntos de dados Anscombe

Charlie
fonte
Sim, nós conhecíamos esses conjuntos de dados. É um bom ponto de partida.
precisa saber é o seguinte
O principal problema é que não é um conjunto de dados do mundo real.
robermorales
3
@robermorales, é justo, mas acho que ver a versão "pura" do problema facilita a compreensão de visualizações / problemas mais confusos do mundo real.
Charlie
4

William S. Cleveland tem dois livros cheios de ótimos usos de gráficos, e os dados e o código para criar os gráficos em Visualizing Data estão em seu site.

Peter Flom - Restabelece Monica
fonte
de quais conjuntos de dados de Cleveland você mais gosta? obrigado
robermorales 11/11
11
@robertomorales Acho que todos são bem escolhidos para seus propósitos. Qualquer pessoa interessada em gráficos estatísticos deve estudar Cleveland cuidadosamente.
Peter Flom - Restabelece Monica
11
Os dados para visualização de dados podem ser encontrados em lib.stat.cmu.edu/datasets/visualizing.data.zip. Não consigo mais encontrá-los no site de Cleveland.
Nick Cox
4

Possivelmente você já sabe disso, mas aqui estão elas de qualquer maneira:

O UCI Machine Learning Repositor y possui muitos conjuntos de dados do mundo real acessíveis ao público.

O governo dos EUA torna público muitos de seus conjuntos de dados em data.gov .

Se você quiser alguns dados complicados de visualização, sugiro examinar uma tarefa de classificação. Parece-me que o Bag of Words definido no UCI MLR tem algumas propriedades agradáveis, mas posso estar enganado (já faz um tempo desde que o usei).

John Doucette
fonte
Obrigado! Há muito !
Robertmorales #
3

Aqui estão alguns.

Conjuntos de dados de amostra da ferramenta Sci2
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets Conjuntos de
dados de amostra fornecidos com o Sci2 Tool.

Conjuntos de dados de amostra do Tableau
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources Conjuntos de
dados de amostra para começar a usar o Tableau.

Conjuntos de dados públicos impressionantes
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Esta lista de fontes de dados públicas é coletada e organizada em blogs, respostas e respostas de usuários. A maioria dos conjuntos de dados é gratuita, outros não.

Este tópico é bastante antigo, esperando que esta colisão receba novas contribuições!

Mike Nutt
fonte