Eu tenho trabalhado em um novo método para analisar e analisar conjuntos de dados para identificar e isolar subgrupos de uma população sem conhecer as características de nenhum subgrupo. Embora o método funcione bem o suficiente com amostras de dados artificiais (ou seja, conjuntos de dados criados especificamente com o objetivo de identificar e segregar subconjuntos da população), eu gostaria de tentar testá-lo com dados ao vivo.
O que estou procurando é uma fonte de dados disponível gratuitamente (ou seja, não confidencial, não proprietária). De preferência, uma contendo distribuições bimodais ou multimodais ou obviamente composta de vários subconjuntos que não podem ser facilmente separados por meios tradicionais. Onde eu iria encontrar essas informações?
fonte
Respostas:
Consulte também o Repositório de Dados de aprendizado de máquina da UCI.
http://archive.ics.uci.edu/ml/
fonte
A lista a seguir contém muitos conjuntos de dados que podem lhe interessar:
fonte
Veja minha resposta a "Conjuntos de dados para executar análises estatísticas em" em referência a conjuntos de dados em R.
fonte
O Banco Mundial oferece muitos dados interessantes e recentemente foi muito ativo no desenvolvimento de uma API agradávelpara ele.
Além disso, o projeto commugrate tem uma lista interessante disponível.
Para dados de saúde dos EUA, vá para o Health Indicators Warehouse .
O blog de Daniel Lemire aponta para alguns exemplos interessantes (principalmente adaptados à pesquisa de banco de dados), incluindo o Censo Canadense 1880 e relatórios de nuvens sinópticas .
E até hoje (03/04/2012) os registros do censo dos EUA em 1940 também estão disponíveis para download.
fonte
O Gapminder possui um número (430 na última visualização) de conjuntos de dados, que podem ou não ser úteis para você.
fonte
O MLComp possui alguns conjuntos de dados interessantes e, como bônus, seu algoritmo será classificado se você fizer o upload.
fonte
Um bom lugar para procurar é a Biblioteca de Histórias e Dados da Carnegie Mellon University ou DASL , que contém arquivos de dados que "ilustram o uso de métodos estatísticos básicos ... Um bom exemplo pode fazer com que uma lição sobre um determinado método estatístico seja vívida e relevante. projetado para ajudar os professores a localizar e identificar arquivos de dados para ensino. Esperamos que o DASL também sirva como um arquivo para conjuntos de dados da literatura estatística ".
fonte
Inicie R e digite
data()
. Isso mostrará todos os conjuntos de dados no caminho de pesquisa. Muitos conjuntos de dados adicionais estão disponíveis em pacotes complementares. Por exemplo, existem alguns conjuntos de dados de ciências sociais do mundo real interessantes noAER
pacote.fonte
O NIST fornece um arquivo de conjunto de dados de referência .
fonte
http://www.reddit.com/r/datasets e também http://www.reddit.com/r/opendata contêm uma lista crescente de indicadores para vários conjuntos de dados.
fonte
A rede Stack Exchange agora possui um novo site, Open Data (na versão beta em 5 de março de 2015), dedicado aos dados. Ele se descreve como:
"Dados abertos" refere-se a conjuntos de dados "disponíveis gratuitamente para todos usarem e republicarem como desejarem, sem restrições de direitos autorais, patentes ou outros mecanismos de controle" ( Wikipedia ). No entanto, o site parece passível de solicitações de conjuntos de dados fechados .
fonte
O Timetric fornece uma interface da web para dados e uma lista dos conjuntos de dados publicamente disponíveis que eles usam
fonte
Adicionando alguns à lista:
Muitos dados financeiros detalhados sobre empresas de capital aberto, que remontam a muitas décadas: http://www.mergent.com/servius
Informações completas sobre mais de 16 milhões de empresas nos EUA: http://compass.webservius.com
Ambos disponíveis por meio de uma API REST e possuem planos de avaliação gratuita.
fonte
Aqui está outra lista .
fonte
Esta é provavelmente a lista mais completa que você encontrará: Alguns conjuntos de dados disponíveis na Web
fonte
Peter Skomoroch mantém uma lista de conjuntos de dados em http://www.datawrangling.com/some-datasets-available-on-the-web . Muitos dos links fornecidos como locais que listam conjuntos de dados.
fonte
Os conjuntos de dados do livro seminal
A handbook of small data sets
estão disponíveis aqui .fonte
Procurando um conjunto de dados apropriado para minhas necessidades, acabei de me deparar com dois sites que são pertinentes a esta discussão.
Datacite.org que se descreve como ...
DataBib.org que se descreve como ...
Achei que valeria a pena adicioná-lo à lista aqui para outros.
Agora, para encontrar algo em seus links que atenda às minhas necessidades!
fonte
Eu recomendo verificar quandl.com . Este é um sonho dos programadores de dados. Ele fornece uma API muito fácil para acessar qualquer um dos mais de 10 milhões de dados diferentes. Você está procurando dados bi-modiais ou multi-variáveis, portanto, sugiro verificar os vários conjuntos de dados populacionais, por exemplo, este gráfico mundial de população contém os países e territórios subcomponentes que entram no total.
fonte
fonte
Uso ao longo do tempo
Uma planilha do Excel muito grande disponível para download, contendo pontos de dados para todas as atividades online, com dados demográficos do usuário, ao longo do tempo. Leia a Folha de dicas (abaixo) antes de fazer o download ou usar esta planilha.
http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx
fonte
http://www.ckan.net também possui vários conjuntos de dados.
O http://www.biotorrents.net/browse.php também está começando a ter uma quantidade bastante grande de conjuntos de dados GRANDES.
fonte
SODA POP na Penn State;
http://sodapop.pop.psu.edu/
Arquivo de dados on-line simples para estudos de população.
fonte
Vou seguir em frente e abordar um tópico antigo porque acabei de encontrar este filão:
http://vincentarelbundock.github.io/Rdatasets/
fonte
Cingapura anuncia a iniciativa Open Data . Confira data.gov.sg semelhante ao data.gov nos EUA.
fonte