Localizando amostras de dados disponíveis gratuitamente

98

Eu tenho trabalhado em um novo método para analisar e analisar conjuntos de dados para identificar e isolar subgrupos de uma população sem conhecer as características de nenhum subgrupo. Embora o método funcione bem o suficiente com amostras de dados artificiais (ou seja, conjuntos de dados criados especificamente com o objetivo de identificar e segregar subconjuntos da população), eu gostaria de tentar testá-lo com dados ao vivo.

O que estou procurando é uma fonte de dados disponível gratuitamente (ou seja, não confidencial, não proprietária). De preferência, uma contendo distribuições bimodais ou multimodais ou obviamente composta de vários subconjuntos que não podem ser facilmente separados por meios tradicionais. Onde eu iria encontrar essas informações?

EAMann
fonte
4
Você pode gostar do getthedata.org, um site de perguntas e respostas dedicado à localização de conjuntos de dados
Jeromy Anglim

Respostas:

46

A lista a seguir contém muitos conjuntos de dados que podem lhe interessar:

Mehper C. Palavuzlar
fonte
17

O Banco Mundial oferece muitos dados interessantes e recentemente foi muito ativo no desenvolvimento de uma API agradávelpara ele.

Além disso, o projeto commugrate tem uma lista interessante disponível.

Para dados de saúde dos EUA, vá para o Health Indicators Warehouse .

O blog de Daniel Lemire aponta para alguns exemplos interessantes (principalmente adaptados à pesquisa de banco de dados), incluindo o Censo Canadense 1880 e relatórios de nuvens sinópticas .

E até hoje (03/04/2012) os registros do censo dos EUA em 1940 também estão disponíveis para download.

radek
fonte
2
O Banco Mundial está indo além com dados e mapas abertos, para Stata e R.
pe.
13

O Gapminder possui um número (430 na última visualização) de conjuntos de dados, que podem ou não ser úteis para você.

Amos
fonte
11

O MLComp possui alguns conjuntos de dados interessantes e, como bônus, seu algoritmo será classificado se você fizer o upload.

jilles de wit
fonte
10

Um bom lugar para procurar é a Biblioteca de Histórias e Dados da Carnegie Mellon University ou DASL , que contém arquivos de dados que "ilustram o uso de métodos estatísticos básicos ... Um bom exemplo pode fazer com que uma lição sobre um determinado método estatístico seja vívida e relevante. projetado para ajudar os professores a localizar e identificar arquivos de dados para ensino. Esperamos que o DASL também sirva como um arquivo para conjuntos de dados da literatura estatística ".

user211
fonte
9

Inicie R e digite data(). Isso mostrará todos os conjuntos de dados no caminho de pesquisa. Muitos conjuntos de dados adicionais estão disponíveis em pacotes complementares. Por exemplo, existem alguns conjuntos de dados de ciências sociais do mundo real interessantes no AERpacote.

Jeromy Anglim
fonte
5

A rede Stack Exchange agora possui um novo site, Open Data (na versão beta em 5 de março de 2015), dedicado aos dados. Ele se descreve como:

O Open Data Stack Exchange é um site de perguntas e respostas para desenvolvedores e pesquisadores interessados ​​em dados abertos. Ele foi desenvolvido e executado por você como parte da rede de sites de perguntas e respostas do Stack Exchange. Com sua ajuda, estamos trabalhando juntos para criar uma biblioteca de respostas detalhadas para todas as perguntas sobre dados abertos.

"Dados abertos" refere-se a conjuntos de dados "disponíveis gratuitamente para todos usarem e republicarem como desejarem, sem restrições de direitos autorais, patentes ou outros mecanismos de controle" ( Wikipedia ). No entanto, o site parece passível de solicitações de conjuntos de dados fechados .

gung
fonte
3

Adicionando alguns à lista:

Ambos disponíveis por meio de uma API REST e possuem planos de avaliação gratuita.

Eugene Osovetsky
fonte
2

Os conjuntos de dados do livro seminal A handbook of small data setsestão disponíveis aqui .

MYaseen208
fonte
2

Procurando um conjunto de dados apropriado para minhas necessidades, acabei de me deparar com dois sites que são pertinentes a esta discussão.

Datacite.org que se descreve como ...

Somos uma organização internacional que visa:

  • estabelecer um acesso mais fácil aos dados da pesquisa
  • aumentar a aceitação dos dados da pesquisa como contribuições legítimas nos registros acadêmicos e
  • apoiar o arquivamento de dados para permitir que os resultados sejam verificados e redefinidos para estudos futuros.

DataBib.org que se descreve como ...

O Databib é uma ferramenta para ajudar as pessoas a identificar e localizar repositórios online de dados de pesquisa. Usuários e bibliografistas criam e selecionam registros que descrevem repositórios de dados que os usuários podem pesquisar.

Achei que valeria a pena adicioná-lo à lista aqui para outros.

Agora, para encontrar algo em seus links que atenda às minhas necessidades!

slackline
fonte
2

Eu recomendo verificar quandl.com . Este é um sonho dos programadores de dados. Ele fornece uma API muito fácil para acessar qualquer um dos mais de 10 milhões de dados diferentes. Você está procurando dados bi-modiais ou multi-variáveis, portanto, sugiro verificar os vários conjuntos de dados populacionais, por exemplo, este gráfico mundial de população contém os países e territórios subcomponentes que entram no total.

Brian Risk
fonte
1
Alguns dados do quandl são gratuitos, outros "Premium", isto é, custam $$. Além disso, meu sonho de API inclui séries de séries de nrows, ncols e plotagens on-line (eu quero um pônei).
Denis19 /
1

Uso ao longo do tempo

Uma planilha do Excel muito grande disponível para download, contendo pontos de dados para todas as atividades online, com dados demográficos do usuário, ao longo do tempo. Leia a Folha de dicas (abaixo) antes de fazer o download ou usar esta planilha.

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx

Tal Galili
fonte