As coordenadas GPS (latitude e longitude) podem ser usadas como recursos em um modelo linear?

10

Eu tenho conjuntos de dados que contêm, entre muitos recursos, coordenadas GPS (latitude e longitude). Eu gostaria de usar esses conjuntos de dados para explorar problemas como: (1) computação do ETA para conduzir entre os pontos inicial e final; e (2) estimar a quantidade de crimes para um ponto específico.

Eu gostaria de usar um modelo de regressão linear. No entanto, posso usar essas coordenadas GPS diretamente em um modelo linear?

Latitude e longitude não têm uma propriedade ordinal , como na idade de uma pessoa. Por exemplo, os dois pontos (40.805996, -96.681473) e (41.226682, -95.986587) não parecem ter nenhuma ordem significativa. São apenas pontos no espaço. Eu estava pensando em substituí-los por códigos postais categóricos dos EUA e depois fazer a codificação one-hot , mas isso resultaria em muitas variáveis.

stackoverflowuser2010
fonte
11
Você precisa usá-los diretamente ? Você já ouviu falar sobre ferramentas de zoneamento, como o algoritmo AZP de S. Openshaw? Você pode até delimitar manualmente regiões em um mapa para separar regiões / zonas, se a área for relativamente consistente.
Mephy
@ Mephy: Isso significaria que eu converteria lat / long em zonas, certo? Mas então eu teria centenas ou milhares de zonas categóricas, assim como nos códigos postais. Eu teria que codificar todos eles de uma só vez.
stackoverflowuser2010
Depende de como você corta as zonas, é claro. Se você escolher "sul da linha equatorial / norte da linha equatorial", serão apenas duas. Muitos algoritmos de zoneamento possuem alguns hiperparâmetros para definir quantidades como o número de zonas ou o tamanho mínimo da zona.
Mephy #
Tenho o mesmo problema. Quero prever a posição de uma pessoa. Eu geohashed todos os recursos de geolocalização nos dados de treinamento. Depois disso, LabelDecoder é usado para transformar o recurso de localização categórica. Finalmente, o resultado é terrível. Existe alguma boa idéia para lidar com a previsão espacial?
berisfu

Respostas:

5

Você não pode usá-los diretamente, pois é improvável que exista um verdadeiro relacionamento linear, a menos que você esteja procurando prever "a que distância leste ou norte" alguém está. Conforme mencionado nos comentários, você precisa convertê-los em zonas. Se você quiser simplificá-lo, use um algoritmo de cluster kNN com um número baixo de clusters em potencial e, em seguida, atribua a cada instância um novo recurso com o ID do cluster e, em seguida, codifique-o rapidamente.

Você também pode ler sobre como as pessoas interpolam coordenadas para prever valores em um mapa inteiro. O primeiro exemplo é com estações de temperatura, mas você também pode imaginar "zonas quentes" para crimes.

( DOCS )

CalZ
fonte
2

Você poderia fazer o que seu coração desejasse, mas, a menos que seu modelo preveja a temperatura ou a diferença de tempo, não posso criar outra variável de destino que dependa apenas das coordenadas.

O que você provavelmente deseja fazer é usar uma fonte de dados externa e enriquecer seus dados com o país / código postal / clima / outros recursos geográficos que ajudarão o desempenho do seu modelo.

GregA
fonte
0

As coordenadas de GPS podem ser convertidas diretamente em uma geohash . O Geohash divide a Terra em "baldes" de tamanho diferente, com base no número de dígitos (códigos curtos de Geohash criam grandes áreas e códigos mais longos para áreas menores).

Uma geohash é um número único que pode ser usado como um recurso em um modelo.

O Geohash se aplica apenas ao mundo inteiro, os códigos postais não.

Brian Spiering
fonte
A saída de um geohasher é uma string, não um número único, certo? E se o geohash for uma string, eu teria que codificá-lo uma vez, o que resultaria em muitas variáveis, assim como um código postal codificado com uma mensagem quente.
stackoverflowuser2010
Um geohash é um número único, codificado na base 32. Não há motivo para codificar com 1 hot. Escolha o nível de precisão e use o número relevante de dígitos.
Brian Spiering
Eu só vi representações de strings de geohashes. No entanto, mesmo se as geohashes foram representadas como um int longo, existe alguma relação linear entre elas para uso em um modelo linear? Esse é exatamente o ponto da minha pergunta original.
stackoverflowuser2010
O relacionamento entre as geohashes é um pouco complexo - pt.wikipedia.org/wiki/Geohash#Design
Brian Spiering
11
Existem várias formas de engenharia de recursos além da codificação linear e de um ponto quente. Por exemplo, o truque do kernel ou a transformação Helmert.
Brian Spiering