Estou trabalhando em um conjunto de dados fictício com 25 recursos. Dois dos recursos são latitude e longitude de um local e outros são valores de pH, elevação, velocidade do vento, etc., com faixas variadas. Posso executar a normalização nos outros recursos, mas como abordar os recursos de latitude / longitude?
Edit: Este é um problema para prever o rendimento da agricultura. Eu acho que lat / long é muito importante, pois os locais podem ser vitais na previsão e, portanto, no dilema.
machine-learning
python
feature-engineering
feature-scaling
normalization
AllThingsScience
fonte
fonte
Respostas:
As coordenadas longas têm um problema: são duas características que representam um espaço tridimensional. Isso significa que a coordenada longa gira ao redor, o que significa que os dois valores mais extremos estão realmente muito próximos. Eu lidei com esse problema algumas vezes e o que faço nesse caso é mapeá-los para as coordenadas x, ye z. Isso significa que pontos próximos nessas três dimensões também são próximos na realidade. Dependendo do caso de uso, você pode desconsiderar as mudanças na altura e mapeá-las para uma esfera perfeita. Esses recursos podem ser padronizados adequadamente.
Para esclarecer (resumido dos comentários):
fonte