Quais são os prós e os contras dos diferentes formatos de dados (desempenho, tamanho do arquivo etc.) ao considerar a distribuição de dados abertos?
Nossa organização deseja publicar dados como dados abertos. No entanto, não há uma ideia clara sobre quais formatos de dados usar. Obviamente, quanto mais "aberto" for um formato de dados, mais fácil será usar.
Quais formatos de dados são os mais "abertos" e, portanto, mais utilizáveis para a distribuição de Dados Abertos ao considerar os seguintes tipos:
- dados rasterizados (estou pensando: GeoTIFF, Erdas Imagine IMG?)
- dados vetoriais (estou pensando: GML, CSV, ESRI Shapefile, DXF?)
- dados tabulares (estou pensando: CSV?)
- Dados 3D (estou pensando: CityGML?)
- Ponto 3D poderia / LIDAR (Estou pensando: LAS?)
- estou esquecendo alguma coisa aqui?
Além disso, se houver documentação sobre os formatos de dados abertos, estou muito interessado em compartilhar.
data
file-formats
Mark Verschuur
fonte
fonte
Respostas:
A iniciativa de dados abertos da cidade de Viena ( http://data.wien.gv.at ) usa o Geoserver para fornecer acesso aos dados geográficos de varredura e vetor via serviços Geoserver WMS e WFS . Isso tem muitas vantagens: Os usuários podem baixar dados em diferentes formatos para uso offline (por exemplo, geojson, KML ou Shapefiles compactados) ou usar os serviços ao vivo incorporando-os em mapas on-line ou projetos GIS.
fonte
Para CSV tabular. O Excel é, na melhor das hipóteses, excessivamente complicado e, na pior das hipóteses, totalmente inacessível. O acesso não é acessível e o PDF é um tapa na cara.
Para uso geoespacial geojson, seu texto é bem suportado e não possui as restrições técnicas que o único outro formato viável (shapefile) possui. Além disso, a menos que você tenha um motivo muito bom, ele deve estar no WGS84, tendo em mente que a maioria dos usuários estará em outro estado e não desejará um plano de estado.
fonte
Eu gosto bastante do NetCDF para dados contínuos / de matriz (ou seja, rasters). Os profissionais do NetCDF são:
A única desvantagem do NetCDF4 que eu vejo é o excelente suporte em pacotes GIS padrão como ArcGIS e QGIS (embora eu adorasse ser corrigido!).
EDIT Alguns outros pacotes que suportam o NetCDF
Algumas linguagens de programação padrão que oferecem suporte ao NetCDF (embora seja justo, qualquer coisa que possa ler HDF pode ler NetCDF4):
Para usuários de matemática e estatísticas, você tem:
Especificamente no SIG:
Se você quiser olhar rapidamente para um arquivo NetCDF, usaria o Panoply de plataforma cruzada da NASA. E se você estiver interessado em mais, o UCAR Unidata tem uma lista de software .
fonte
Eu diria:
Esses formatos são facilmente legíveis pelo Open Source Software e são facilmente transformáveis em qualquer outro formato necessário para aplicativos específicos.
Também +1 para tornar os dados abertos!
fonte
Virtualmente, essa mesma pergunta surgiu na opendata.SE: Quais são os formatos mais úteis para liberar dados geoespaciais?
Portanto, espero não estar violando nenhuma política ao citar minha própria resposta:
Minha experiência, fazendo mapas de vários conjuntos de dados do governo:
Para dados pontuais, o CSV é o melhor, com as colunas "lat" e "lon". Muito fácil de trabalhar em uma ampla variedade de ferramentas, incluindo editores de texto, planilhas etc. Existem duas desvantagens:
.vrt
arquivo complementar.lat
elon
não é totalmente padrão. Muitas ferramentas são bastante liberais no que aceitam.Para linhas e polígonos, em ordem decrescente de preferência:
Honestamente, porém, a melhor resposta é provavelmente "todos eles". Faça um favor a todos e libere os dados em CSV (se necessário), GeoJSON, Shapefile compactado e KMZ.
fonte