Maneiras de lidar com o recurso de longitude / latitude [fechado]

18

Estou trabalhando em um conjunto de dados fictício com 25 recursos. Dois dos recursos são latitude e longitude de um local e outros são valores de pH, elevação, velocidade do vento, etc., com faixas variadas. Posso executar a normalização nos outros recursos, mas como abordar os recursos de latitude / longitude?

Edit: Este é um problema para prever o rendimento da agricultura. Eu acho que lat / long é muito importante, pois os locais podem ser vitais na previsão e, portanto, no dilema.

AllThingsScience
fonte
Você poderia esclarecer por que acha que não pode normalizar esses recursos? Presumivelmente, eles são numéricos da mesma forma que outros recursos, para que você possa obter média / sd? Você está preocupado em ter uma medida natural da distância entre os locais? Nesse caso, os dados cobrem uma área pequena (com valores semelhantes) ou são globais?
Neil Slater
@ NeilSlater É intuitivo que não faça sentido normalizar esses recursos. As informações não serão perdidas se normalizadas? Eu tenho o conjunto de dados cobrindo condados da América.
AllThingsScience
Que informações você acha que serão perdidas? Provavelmente não será realmente perdido, mas se você explicar em sua pergunta qual é a sua preocupação, alguém poderá responder. Sem saber mais, eu normalizaria independentemente - para valores totalmente globais e alguns problemas (onde a distância entre pontos é importante) eu poderia criar um recurso de coordenadas cartesianas 3d a partir do long / lat.
Neil Slater
Qual é a sua pergunta aqui? O que você está tentando descobrir com os dados? Correlação? Agrupamento? Classificação? Predição? Interpolação? Qual a localização importante para o seu modelo?
precisa saber é o seguinte
@ Spacedman Por favor, veja edit.
AllThingsScience

Respostas:

24

As coordenadas longas têm um problema: são duas características que representam um espaço tridimensional. Isso significa que a coordenada longa gira ao redor, o que significa que os dois valores mais extremos estão realmente muito próximos. Eu lidei com esse problema algumas vezes e o que faço nesse caso é mapeá-los para as coordenadas x, ye z. Isso significa que pontos próximos nessas três dimensões também são próximos na realidade. Dependendo do caso de uso, você pode desconsiderar as mudanças na altura e mapeá-las para uma esfera perfeita. Esses recursos podem ser padronizados adequadamente.

Para esclarecer (resumido dos comentários):

x = cos(lat) * cos(lon)
y = cos(lat) * sin(lon), 
z = sin(lat) 
Jan van der Vegt
fonte
1
Isso é muito interessante. Obrigado! Você pode confirmar se estas são as fórmulas para conversão? x = R * cos (lat) * cos (lon), y = R * cos (lat) * sin (lon), z = R * sin (lat)
AllThingsScience
Não tenho acesso ao meu código no momento, mas parece correto. Você não precisa a R desde que você estará padronização de qualquer maneira;)
Jan van der Vegt
Perfeito! Obrigado.
AllThingsScience