APIs / feeds de dados disponíveis como pacotes em R

53

EDIT: A exibição da tarefa CRAN de Tecnologias e Serviços da Web contém uma lista muito mais abrangente de fontes de dados e APIs disponíveis no R. Você pode enviar uma solicitação pull no github se desejar adicionar um pacote à exibição da tarefa.


Estou fazendo uma lista dos vários feeds de dados que já estão conectados ao R ou que são fáceis de configurar. Aqui está minha lista inicial de pacotes, e eu queria saber o que mais estou perdendo.

Estou tentando limitar esta lista a feeds / APIs de dados "em tempo real" ou "quase em tempo real", onde os dados subjacentes podem mudar entre os downloads. Existem muitas listas disponíveis para conjuntos de dados estáticos, que exigem apenas um download.

Atualmente, esta lista é enviesada em relação a dados financeiros / séries temporais, e eu poderia usar alguma ajuda para expandi-la para outros domínios.

Dados Free:
Fonte de Dados - Pacote
dados históricos do Google Finance - quantmod
balanços do Google Finance - quantmod
dados históricos Yahoo Finanças - quantmod
dados históricos Yahoo Finanças - tseries
Yahoo Finance cadeia opções atuais - quantmod
estimativas de analistas histórico Yahoo Finanças - fImport
Yahoo Finanças chave atual estatísticas - fImport - parece estar quebrado
Taxas de câmbio históricas da OANDA / preços dos metais -
indicadores macroeconômicos históricos quantmod FRED - indicadores macroeconômicos históricos do quantmod
Banco Mundial - WDI
Dados históricos do volume de pesquisa do Google Trends - RGoogleTrends
Google Docs - RGoogleDocs
Google Storage - RGoogleStorage
Twitter - twitteR
Zillow - Zillow
New York Times - RNYTimes
US Census 2000 - UScensus2000
infochimps - infochimps
datamarket - rdatamarket - requer conta gratuita
Factual.com - endereços de geocódigo
factualR - Mapa do RDSTK
coordena as fronteiras políticas - RDSTK
Weather Underground - Crie seu próprio
Google News - Role seus próprios dados do netCDF de
Ciências da Terra - Role seus próprios dados climáticos - Role seus próprios dados de saúde pública - Role seu próprio OAI Harvester - Harvester Open Archives Initiative RAmazonS3 - S3 Servidor de armazenamento Amazon Rflikr - Flikr api




Requer uma assinatura:
Bloomberg - RBloomberg
LIM - LIM
Negócios e cotações da NYSE - RTAQ
Interactive Brokers - IBrokers

Zach
fonte
11
Depende do que você quer dizer com 'fácil de configurar' ... Eu tenho um número de scripts personalizados que são 'fáceis de configurar'
David LeBauer
2
Agora eu estou definindo "fácil de configurar" como "existe o pacote" ou "de alguém postado / publicado uma função para baixar os dados"
Zach
Eu definiria ainda "os pacotes existem" como "o pacote está no CRAN" ou "o pacote está no R Forge", "o pacote está em algum repositório público semelhante ao CRAN".
Zach
Adição: API Federal Register (em andamento).
pe.
Esta discussão também podem ser de interesse: Import preço das ações do Yahoo Finance em R .
gung - Restabelece Monica

Respostas:

8
  1. Instruções para usar o R ​​para fazer download de dados do netCDF podem ser encontradas aqui , um formato comum usado para armazenar dados da ciência da Terra, por exemplo, como dados geoespaciais marinhos do OpenEarth ou driver de modelo climático e previsões da UCAR

  2. O rnpn (em desenvolvimento) permite que você obtenha dados da National Phenology Network - um projeto de ciência do cidadão para rastrear o tempo de esverdeamento, floração e senescência das plantas. Veja a postagem do blog do desenvolvedor .

  3. -obsolete- O RClimate fornece ferramentas para baixar e manipular dados climáticos de arquivo simples (com tutoriais, incluindo aqui -

  4. Baixe dados financeiros históricos com tseries::get.hist.quote

  5. Documentos de Michael Samuel baixando dados de saúde pública

  6. raster::getData fornece acesso a variáveis ​​climáticas via worldclim

David
fonte
O que são "dados netCDF?"
Zach
O @Zach NetCDF é um tipo de maneira estruturada universal de armazenar grandes conjuntos de dados. Uma abordagem alternativa depende do formato HDF5 .
chl
@ David (+1) Muito obrigado pelo quarto ponto!
chl
O que aconteceu com o RClimate? Não consigo encontrar o pacote em nenhum lugar #
Daniel Ryback
agora existe uma biblioteca ncdf4 no R para manipular o netcdf4. É mais complicado instalar do que o ncdf, mas a versão posterior está obsoleta. Alguns anos atrás, eu até consegui instalar o netcdf4 com Min GW64 para fazer este pacote funcionar no Windows :) se eu fiz isso, significa que é viável ... e parece que D. Pierce (autor do pacote) está fornecendo fontes em seu site cirrus.ucsd.edu/~pierce/ncdf
robin girard
8

Existe um projeto que visa criar pacotes R com esse objetivo (interface R para APIs em tempo real) chamado rOpenSci , que possui 18 pacotes atualmente disponíveis ou em desenvolvimento. Alguns (rnpn, rfishbase) já estão na sua lista.

Ótima lista! e divulgação completa - faço parte do projeto rOpenSci.

cboettig
fonte
1
  1. ONETr - interação eficiente com a API O * NET ™, oferecendo dados do descritor ocupacional do Departamento do Trabalho dos EUA.
RunChiRun
fonte