Um dos problemas comuns na ciência de dados é coletar dados de várias fontes em um formato de alguma forma limpo (semiestruturado) e combinar métricas de várias fontes para fazer uma análise de nível superior. Observando o esforço de outras pessoas, especialmente outras perguntas neste site, parece que muitas pessoas neste campo estão realizando um trabalho repetitivo. Por exemplo, analisar tweets, postagens no Facebook, artigos da Wikipedia etc. faz parte de muitos problemas de big data.
Alguns desses conjuntos de dados são acessíveis usando APIs públicas fornecidas pelo site do provedor, mas geralmente faltam algumas informações ou métricas valiosas nessas APIs e todos precisam fazer as mesmas análises repetidas vezes. Por exemplo, embora os usuários de cluster possam depender de diferentes casos de uso e seleção de recursos, mas ter um cluster básico de usuários do Twitter / Facebook pode ser útil em muitos aplicativos de Big Data, que não são fornecidos pela API nem estão disponíveis publicamente em conjuntos de dados independentes .
Existe algum site de hospedagem de índice ou de conjunto de dados publicamente disponível contendo conjuntos de dados valiosos que podem ser reutilizados na solução de outros problemas de big data? Quero dizer algo como o GitHub (ou um grupo de sites / conjuntos de dados públicos ou pelo menos uma lista abrangente) para a ciência de dados. Caso contrário, quais são as razões para não ter uma plataforma desse tipo para ciência de dados? O valor comercial dos dados, precisa atualizar frequentemente conjuntos de dados, ...? Não podemos ter um modelo de código aberto para compartilhar conjuntos de dados criados para cientistas de dados?
fonte
Respostas:
De fato, existe uma lista bastante razoável de conjuntos de dados publicamente disponíveis, suportados por diferentes empresas / fontes.
Alguns deles estão abaixo:
Agora, duas considerações sobre sua pergunta. Primeiro, em relação às políticas de compartilhamento de banco de dados. Por experiência pessoal, existem alguns bancos de dados que não podem ser disponibilizados ao público, seja por envolver restrições de privacidade (como em algumas informações de redes sociais) ou por preocupar-se com informações do governo (como bancos de dados de sistemas de saúde).
Outro ponto diz respeito ao uso / aplicação do conjunto de dados. Embora algumas bases possam ser reprocessadas para atender às necessidades do aplicativo, seria ótimo ter uma boa organização dos conjuntos de dados por finalidade. A taxonomia deve envolver análise de gráficos sociais, mineração de conjuntos de itens, classificação e muitas outras áreas de pesquisa que possam existir.
fonte
Atualizar:
O Kaggle.com , um lar de entusiastas modernos de ciência de dados e aprendizado de máquina :), abriu seu próprio repositório de conjuntos de dados .
Além das fontes listadas.
Alguns conjuntos de dados de redes sociais:
Existem muitas fontes listadas no Stats SE:
fonte
Existem muitos conjuntos de dados disponíveis abertamente, um dos quais muitas pessoas ignoram é o data.gov . Como mencionado anteriormente, o Freebase é ótimo, assim como todos os exemplos publicados por @Rubens
fonte
O Freebase é um banco de dados gratuito dirigido pela comunidade, que abrange muitos tópicos interessantes e contém cerca de 2,5 bilhões de fatos em formato legível por máquina. Também é uma boa API para executar consultas de dados.
Aqui está outra lista compilada de conjuntos de dados abertos: http://www.datapure.co/open-data-sets
fonte
Os seguintes links estão disponíveis
Conjuntos de dados públicos
Conjuntos de dados públicos do Google
Amazon Web Services
Localizando dados na Internet
fonte
Para dados de séries temporais, em particular, Quandl é um excelente recurso - um diretório facilmente navegável (principalmente) de séries temporais limpas.
Um de seus recursos mais interessantes é o preço das ações de dados abertos - ou seja, dados financeiros que podem ser editados no estilo wiki e não são onerados pelo licenciamento.
fonte
Enigma é um repositório de conjuntos de dados públicos disponíveis. Seu plano gratuito oferece pesquisa de dados públicos, com 10 mil chamadas de API por mês. Nem todos os bancos de dados públicos estão listados, mas a lista é suficiente para casos comuns.
Usei-o para pesquisas acadêmicas e me poupou muito tempo.
Outra fonte interessante de dados é o projeto @unitedstates , contendo dados e ferramentas para coletá-los, sobre os Estados Unidos (membros do Congresso, formas geográficas ...).
fonte
Gostaria de apontar para o Censo de dados abertos . É uma iniciativa da Open Knowledge Foundation baseada em contribuições de advogados e especialistas em dados abertos em todo o mundo.
O valor do Censo de dados abertos é um esforço aberto, orientado pela comunidade e sistemático para coletar e atualizar o banco de dados de conjuntos de dados abertos globalmente no país e, em alguns casos, como nos EUA, no nível da cidade .
Além disso, apresenta uma oportunidade de comparar diferentes países e cidades em áreas de interesse selecionadas.
fonte
Há também outro recurso fornecido pelo The Guardian, o British Daily em seu site. Os conjuntos de dados publicados pelo Guardian Datablog estão todos hospedados. Conjuntos de dados relacionados às contas dos clubes Football Premier League, detalhes da inflação e do PIB do Reino Unido, dados do Grammy Awards etc. Os conjuntos de dados estão disponíveis em
Mais alguns recursos. Alguns dos conjuntos de dados estão no formato R ou existem vírgulas para importar dados diretamente para R.
fonte
Pesquisa personalizada do Google
Você pode usar a Pesquisa personalizada do Google para conjuntos de dados:
Pesquisa personalizada do Google: conjuntos de dados
Inclui 230 fontes e meta-fontes de conjuntos de dados, incluindo todos os mencionados nesta pergunta. Sinta-se à vontade para excluir os resultados .gov e outros sites da Web adicionando "-.gov" ou "-site.com" à linha de pesquisa. Outros operadores de pesquisa do Google funcionam.
Não hesite em entrar em contato comigo se tiver idéias de quais sites adicionar.
IOGDS
O serviço a seguir categoriza mais de 1.000.000 de conjuntos de dados públicos:
IOGDS: Pesquisa de conjunto de dados do governo aberto internacional
fonte
Resposta tardia, mas aqui está uma lista eclética de mais de 100 conjuntos de dados interessantes
A postagem do blog é divertida e fácil de ler (não tenho afiliação). Vale a pena examinar e raspar alguns do topo:
Últimas palavras de todos os presos do Texas executados desde 1984
10.000 imagens anotadas de gatos
2,2 milhões de partidas de xadrez
fonte
Encontrei este link no Data Science Central com uma lista de conjuntos de dados gratuitos: Grandes conjuntos de dados disponíveis gratuitamente
fonte
Você sabia sobre os benchmarks PUMA e downloads de conjuntos de dados? https://sites.google.com/site/farazahmad/pumadatasets
Inclui o seguinte:
fonte
O governo do Reino Unido fornece uma excelente fonte de dados não pessoais coletados em todos os departamentos do governo: http://data.gov.uk
fonte
Eu sou novo neste fórum. Falando tarde sobre esta questão. Tenho mantido (sou co-fundador de) um catálogo de portais de dados publicamente disponíveis. Atualmente, existem mais de 1000 listadas e cobrem portais nos níveis internacional, federal, estadual, municipal e acadêmico em todo o mundo.
http://www.opengeocode.org/opendata/
fonte
Estou surpreso que não tenha mencionado isso, pois parece bastante óbvio: http://www.kaggle.com tem consistentemente novos e muito interessantes conjuntos de dados. As informações são consideradas um ativo; muitas vezes as empresas não desejam liberar esses dados (além de preocupações com a privacidade). O Kaggle fornece dados e eles esperam que você resolva problemas de negócios com eles em troca.
fonte
Conjuntos de dados
Conjuntos de dados da awesome-datascience
fonte
Como você mencionou, a API é a parte mais difícil, não os dados. O Quandl parece resolver esse problema fornecendo mais de 10 milhões de conjuntos de dados publicamente disponíveis em uma API RESTful fácil. Se a programação não é o seu ponto forte, existe uma ferramenta gratuita para facilitar o carregamento de dados no Excel. Além disso, se você fazer desfrutar de uma programação, há várias bibliotecas nativas em R, Python, Java e muito mais .
fonte
Para adicionar a uma lista possivelmente interminável:
como mencionado pelo cyndd, existe o Wikidata ,
e para o conhecimento estruturado com curadoria, Wolfram Alpha .
fonte
Me deparei com esta coleção no Github. A coleção também é categorizada.
https://github.com/caesar0301/awesome-public-datasets
E para a parte relativa
você pode consultar o guia do grupo Leek para compartilhamento de dados
fonte
Nem todos os dados do governo estão listados em data.gov - a Sunlight Foundation montou um conjunto de planilhas em fevereiro, descrevendo os conjuntos de dados disponíveis.
fonte
Uma outra fonte de dados que não vi na lista é o Projeto GDELT . Do site:
fonte
Este subreddit lista muitos conjuntos de dados conhecidos
Conjuntos de dados Reddit
Existem muitas solicitações de conjuntos de dados nesse subreddit, várias das quais foram respondidas.
fonte
Eu criei um repositório no github para isso. Os conjuntos de dados não são grandes, mas são exemplos mínimos destinados a praticar e explorar técnicas de modelagem preditiva que podem ser estendidas para grandes conjuntos de dados.
Bíblia sobre problemas de aprendizado de máquina (MLPB)
O legal / exclusivo desse repositório é que todo problema é marcado com tags como [multi-class], [unbalanced-data], [regression] etc., facilitando a localização de certos tipos de problemas / conjuntos de dados.
fonte
O Eurostats http://ec.europa.eu/eurostat e o Banco Central Europeu https://www.ecb.europa.eu/stats/html/index.en.html fornecem uma grande variedade de conjuntos de dados que eu uso frequentemente em meus projetos de trabalho.
fonte
Além de todos esses conjuntos de dados, se você estiver interessado em dados relacionados à Índia. O site público oficial do governo indiano é
Ele fornece conjuntos de dados de diferentes departamentos do governo indiano, que podem ser bem utilizados para análise de big data e aprendizado de máquina.
fonte
O Yahoo acaba de lançar um enorme conjunto de dados para a comunidade de pesquisa. Aproveite!
fonte
Quando carregamos o pacote MASS no R, acessamos vários quadros de dados ou conjuntos de dados.
install.packages ("MASS") requer ("MASS")
fonte
3 conjuntos de dados de https://www.jc-bingo.com/about
fonte
Obviamente, existe um grande conjunto de bancos de dados públicos.
Um ainda não mencionado, é da FAO (Organização das Nações Unidas para Agricultura e Alimentação), acessível em:
http://www.fao.org/faostat/
Ele contém dados sobre a produção de alimentos para países do mundo todo.
fonte