Eu tenho um conjunto de locais nas coordenadas geográficas e gostaria de agrupar os pontos usando o agrupamento hierárquico seguido de corte de árvores em várias "alturas" para calcular as médias de variáveis agrupadas em cada local.
O agrupamento hierárquico da matriz de distância das coordenadas geográficas, presumo, pode ser uma maneira enganosa de formar grupos porque a latitude e a longitude não são igualmente espaçadas.
Posso então imaginar dois caminhos a seguir:
- Usando a grande distância do círculo para a métrica de distância.
- Convertendo as coordenadas geográficas em uma projeção igualmente escalada e, em seguida, encontrando a distância euclidiana.
Além da opção dois ser mais complicada de executar, essas abordagens são equivalentes? E qual é exatamente o significado da altura de corte de árvores nesses casos?
distance
clustering
digitalmaps
fonte
fonte
Respostas:
Obrigado a @whuber por me colocar no caminho certo aqui. Parece que não haverá respostas adicionais por vir, então resolveremos essa questão postando minhas próprias observações que podem ser úteis para outras pessoas que aprendem sobre distâncias, agrupamentos e projeções.
O código a seguir R, usando o
geosphere
,rgdal
esp
pacotes demonstra que a seleção cuidadosa da projeção certo pode dar uma matriz exata distância (onde precisa é definido como a distância geodésica) quando os pontos são de até 2000 km uma da outra (eixos estão em metros).Gráficos dos elementos dessas três matrizes de distância são mostrados abaixo. O gráfico à esquerda indica que a projeção selecionada está altamente correlacionada com a distância geodésica ao longo da faixa de distâncias usada aqui. Enquanto o gráfico correto demonstra o erro considerável que seria esperado se coordenadas geográficas não projetadas fossem usadas.
fonte