Precisa de um conjunto de dados Benchmark GPS Trajectory?

13

Estou procurando um conjunto de dados GPS de referência, disponível gratuitamente para fins de pesquisa. Encontrei o conjunto de dados GeoLife GPS Trajectories da Microsoft Research, mas acho um pouco incompleto.

O que eu preciso são os dados de atividade GPS de uma pessoa, como em tuplas (latitude, longitude, data), rastreadas por pelo menos vários meses, de preferência continuamente. Eu também gostaria que as gravações fossem esparsas; no máximo 1 minuto entre cada registro.

Eu realmente aprecio isso se você puder me apontar para um conjunto de dados tão confiável.

Murat
fonte
2
Esse conjunto de dados precisa ser de um ser humano? (A maneira como você tem formulado tudo até agora implica que sim, mas não acho que tenha sido explicitamente declarado.) #
315 Dan S.

Respostas:

17

Eu acho que sua melhor chance será se rastrear. Se a idéia o incomoda, essa é a razão pela qual você não encontra esses dados públicos em nenhum lugar.

underdark
fonte
6

O melhor que consigo pensar é nos traços de GPS disponíveis no OpenStreetMap. Eles não serão contínuos, mas há um grande número deles.

No site da OSM, selecione "GPS Traces" para ver o que está disponível para uma área específica.

Matthew Snape
fonte
2
Eu acredito que este é o link que você perca a resposta: blog.openstreetmap.org/2012/04/01/bulk-gps-point-data
Dror Atariah
4

Eu não prenderia a respiração. Os dados com essa precisão seriam um empreendimento massivo e teriam enormes implicações de privacidade (mesmo que apenas por 30 dias para um indivíduo que incluísse 43.200 pontos de dados (se gravados a cada minuto) e indubitavelmente identificasse a localização da sua casa).

Se você estiver interessado em perguntas substantivas de que esses dados contenham esse conselho não ajudará. Mas se você estiver interessado apenas em algum tipo de estratégia analítica para lidar com esses dados massivos, você poderá simplesmente simular dados nessa escala para servir a seus objetivos. Para simular dados, sugiro que você dê uma olhada no programa estatístico R, e no spatstat e no pacote de viagem em particular (assim como em todos os módulos espaciais em R).

Eu seria cético, mesmo que os dados de rastreamento de animais atendam aos seus requisitos para pontos de dados em intervalos tão curtos. Eu poderia listar alguns artigos que li que usam dados de telefone celular para estimar padrões de atividade humana, mas nenhum que eu li chegaria perto desse tempo ou medindo a atividade de indivíduos com frequência.

Andy W
fonte
4

Uma opção é redigir um contrato e contratar muitas pessoas. Forneça a eles unidades GPS configuradas para fazer leituras com os dados necessários, baterias suficientes para durar o contrato e instruções (conecte-o a este cabo para fazer o upload noturno, envie-me este arquivo por e-mail)

Você definitivamente precisaria escrever no contrato como restringiria a distribuição dos dados e os anonimizaria para protegê-los (talvez fornecendo um raio de meia milha de exclusão em torno dos pontos que a pessoa indica serem privados) e você pode até considere comprar um seguro contra perdas. Se vestígios da atividade das pessoas se tornassem públicos, eles seriam preenchidos com informações como: "Eu saio para trabalhar todas as manhãs às 7:00 e volto para casa todas as noites às 19:00", e uma trama pareceria um asterisco gigante centrado na casa deles dizendo "roube este lugar entre 8:00 e 18:00". Você pode ver por que precisa se preocupar com privacidade e segurança.

Se você pensar bem, está solicitando alguns dados muito caros. E sem um conjunto estatisticamente grande o suficiente, será de valor duvidoso. Pense em como seriam diferentes traços entre um trabalhador da construção civil (um novo trajeto repetitivo após cada construção concluída), um transportador postal (uma rota muito repetitiva e muito serpentina), um trabalhador de escritório (uma rota direta principalmente repetitiva) e um caminhão de reboque motorista (novas rotas continuamente.) O status socioeconômico pode afetar os traços: rendimentos mais baixos podem seguir mais as linhas de transporte público e viajar menos. Os pais de crianças em idade escolar podem ter uma média maior de milhas pendulares após o trabalho. Sem mencionar o cara que dirige os carros do Google Street View.

Nenhum desses traços provavelmente cruzará nenhum dos outros de maneira significativa.

É provável que o número de estilos únicos seja finito, mas tão alto que exija um orçamento significativo para ser obtido. E isso seria em apenas uma cidade.

Você poderá obter um conjunto menor (mais barato) de dados se tiver definido melhor suas metas. Se você está tentando quantificar os vários tipos de padrões, talvez experimente uma ampla gama de pessoas em várias cidades. Se você está tentando descobrir quem se beneficiaria com o transporte coletivo ou onde instalar corredores de trens, provavelmente é melhor contar carros nas várias estradas da área que planeja servir e realizar pesquisas.

John Deters
fonte
2

Também estou procurando o tipo exato de conjunto de dados que você está procurando. Infelizmente, até agora ainda não encontrei um. Apesar dos dados do GeoLife, outra fonte que encontrei é o CRAWDAD . O site possui registros de GPS dos táxis de São Francisco e também de pedestres de Nova York. Infelizmente, para os pedestres de Nova York, eles fornecem apenas coordenadas relativas, em vez de lat / lon.

ejel
fonte
2

Existem muitos tópicos de pesquisa em que os dados necessários para responder à pergunta estão indisponíveis por razões morais, e experimentos que ultrapassam esses limites podem levar a restrições futuras, como foi o caso do experimento de Milgram . Mais recentemente, a AOL teve que realizar um conjunto de consultas de pesquisa por causa de preocupações com a privacidade, e o único conjunto de dados confiável que temos sobre hábitos de email veio do julgamento da Enron .

Portanto, embora seja tecnicamente possível obter um conjunto de dados dessa trajetória, talvez nunca seja prático devido às implicações de privacidade. Como outras respostas mencionaram, conjuntos de dados relativos, agregação sobre indivíduos ou simulação podem ser melhores abordagens para resolver sua pergunta, evitando o problema de privacidade.

scw
fonte
2

Notícias recentes mostram que o IPhone cria um histórico longo . Talvez você possa encontrar participantes que estariam dispostos a permitir que você usasse os dados?

Matthew Snape
fonte
2

O projeto PFLOW aberto oferece:

conjunto de dados aberto para movimentação de massa de pessoas típicas em áreas urbanas

A área metropolitana de Tóquio está disponível e a área metropolitana de Chukyo parece estar em preparação.

Detalhes podem ser encontrados em uma publicação recente:

Takehiro Kashiyama, Yanbo Pang, Yoshihide Sekimoto, Open PFLOW: Criação e avaliação de um conjunto de dados aberto para movimento de massa de pessoas típicas em áreas urbanas, Pesquisa de Transporte Parte C: Tecnologias Emergentes (2017) Volume 85, Páginas 249–267.


O conjunto de dados de trajetória T-Drive é uma descoberta recente. Fornece:

trajetórias de uma semana de 10.357 táxis. O número total de pontos neste conjunto de dados é de cerca de 15 milhões e a distância total das trajetórias atinge 9 milhões de quilômetros.


Embora não seja sobre movimentos humanos, a empresa Liquid Robotics disponibiliza um conjunto de dados interessante do seu desafio PacX . Dados sobre localização e leituras de sensores ambientais de quatro planadores de robôs navegando pelo Oceano Pacífico estão disponíveis para download . Mais informações sobre o projeto (muito legal) no blog , via WIRED e essa palestra .


Outra opção para resolver os problemas de privacidade seria usar dados de rastreamento de animais. Eu acho que a proteção de dados será um problema menor aqui. Como vantagem, você ainda poderá testar seu software / métodos com dados de movimento do mundo real. A desvantagem pode ser que, se seu aplicativo precisar de movimentos 'humanos específicos' - eles podem não se adequar ao seu objetivo.

Ter um olhar para Movebank ou Dríade sites para verificar se alguns dos seus dados pode caber em seu projeto.


Quanto aos dados do iphone, citados por Matthew , você poderia ter um olhar para crowdflow e openpaths projetos. Talvez haja uma maneira de obter alguns dados através deles? Atualização: os dois links parecem estar mortos agora.


Outra opção é a parte espacial dos dados de táxi de Chris Whong em Nova York . Eles fornecem apenas locais de coleta e entrega, no entanto, o volume (11 GB!) E as informações contextuais (tarifa, passageiros, etc.) os tornam realmente atraentes ( download alternativo , mais informações sobre questões de privacidade levantadas pelos dados).


O post de Urška Demšar em seu recente artigo sobre 'Análise da mobilidade humana a partir de dados de movimento voluntário e informações contextuais' promete:

Também haverá um conjunto de dados gratuito de trajetórias de GPS voluntárias vinculadas a este documento em breve. Fique ligado.

( mais informações )

Atualização: o documento menciona que os dados estarão disponíveis no CRAWDAD mencionados por @ejel, mas eu não os encontrei lá.


Outra opção pode ser você mesmo criar um conjunto de dados sintético . Se você precisar de algum olhar inspiração em artigo recente de van Dijk J (2018) Identificar pontos atividade de viagem de GPS-de dados com várias janelas móveis Computadores, Ambiente e Sistemas Urbanos ( ligação ). Mais detalhes são fornecidos no apêndice do artigo e o código e o conjunto de dados de exemplo estão disponíveis no github .

radek
fonte
1

A Expedição Tahina (Blog do Google Earth) http://www.tahinaexpedition.com/map está navegando pela maior parte do ano passado.

O KML pode ser processado http://maps.google.com/maps/ms?source=embed&hl=pt_BR&geocode=&ie=UTF8&t=k&msa=0&output=nl&msid=103005318482134016767.0004670ab348ba9fa7b1f [era uma trilha de GPS agora convertida em kml]

Mapperz
fonte
@Mapperez - Obrigado Mapperez, mas o que eu preciso é um pouco diferente. Gostaria dos pontos GPS registrados dia a dia, minuto a minuto, de uma pessoa em terra. Uma pessoa com uma rotina diária (algo como uma rotina) - como se levanta, vai trabalhar, passa horas lá, vai às compras, chega em casa, repete.
Murat
1

As pessoas fornecem esses dados ao Google gratuitamente 24 horas por dia. Chama-se Latitude. Talvez eles o compartilhem tão generosamente quanto seus usuários o compartilharam com eles.

mvexel
fonte
1
Eu certamente espero que não. Tenho certeza de que eles não teriam permissão para liberar nenhum dado no nível exigido pelo aplicativo da @ Murat.
Subterrâneo