Eu tenho conjuntos de dados que contêm, entre muitos recursos, coordenadas GPS (latitude e longitude). Eu gostaria de usar esses conjuntos de dados para explorar problemas como: (1) computação do ETA para conduzir entre os pontos inicial e final; e (2) estimar a quantidade de crimes para um ponto específico.
Eu gostaria de usar um modelo de regressão linear. No entanto, posso usar essas coordenadas GPS diretamente em um modelo linear?
Latitude e longitude não têm uma propriedade ordinal , como na idade de uma pessoa. Por exemplo, os dois pontos (40.805996, -96.681473) e (41.226682, -95.986587) não parecem ter nenhuma ordem significativa. São apenas pontos no espaço. Eu estava pensando em substituí-los por códigos postais categóricos dos EUA e depois fazer a codificação one-hot , mas isso resultaria em muitas variáveis.
fonte
Respostas:
Você não pode usá-los diretamente, pois é improvável que exista um verdadeiro relacionamento linear, a menos que você esteja procurando prever "a que distância leste ou norte" alguém está. Conforme mencionado nos comentários, você precisa convertê-los em zonas. Se você quiser simplificá-lo, use um algoritmo de cluster kNN com um número baixo de clusters em potencial e, em seguida, atribua a cada instância um novo recurso com o ID do cluster e, em seguida, codifique-o rapidamente.
Você também pode ler sobre como as pessoas interpolam coordenadas para prever valores em um mapa inteiro. O primeiro exemplo é com estações de temperatura, mas você também pode imaginar "zonas quentes" para crimes.
( DOCS )
fonte
Você poderia fazer o que seu coração desejasse, mas, a menos que seu modelo preveja a temperatura ou a diferença de tempo, não posso criar outra variável de destino que dependa apenas das coordenadas.
O que você provavelmente deseja fazer é usar uma fonte de dados externa e enriquecer seus dados com o país / código postal / clima / outros recursos geográficos que ajudarão o desempenho do seu modelo.
fonte
As coordenadas de GPS podem ser convertidas diretamente em uma geohash . O Geohash divide a Terra em "baldes" de tamanho diferente, com base no número de dígitos (códigos curtos de Geohash criam grandes áreas e códigos mais longos para áreas menores).
Uma geohash é um número único que pode ser usado como um recurso em um modelo.
O Geohash se aplica apenas ao mundo inteiro, os códigos postais não.
fonte