Eu tenho um conjunto de dados mensais de temperatura da superfície do mar (SST) e quero aplicar alguma metodologia de cluster para detectar regiões com padrões SST semelhantes. Eu tenho um conjunto de arquivos de dados mensais em execução de 1985 a 2009 e quero aplicar o cluster a cada mês como primeira etapa.
Cada arquivo contém dados em grade para 358416 pontos onde aproximadamente 50% são terrestres e são marcados com um valor de 99,99 que será NA. O formato dos dados é:
lon lat sst
-10.042 44.979 12.38
-9.998 44.979 12.69
-9.954 44.979 12.90
-9.910 44.979 12.90
-9.866 44.979 12.54
-9.822 44.979 12.37
-9.778 44.979 12.37
-9.734 44.979 12.51
-9.690 44.979 12.39
-9.646 44.979 12.36
Eu tentei o método de agrupamento CLARA e obtive alguns resultados aparentemente bons, mas também me parece que está apenas suavizando (agrupando) isolinhas. Não tenho certeza se esse é o melhor método de clustering para analisar dados espaciais.
Existe algum outro método de cluster dedicado a esse tipo de conjunto de dados? Alguma referência seria boa para começar a ler.
Desde já, obrigado.
fonte
Respostas:
Existe uma abordagem diferente para cluster escalável, abordagem de divisão e conquista, cluster paralelo e incremental. Essa é uma abordagem geral depois que você pode usar métodos normais de cluster. Há um bom método de agrupamento que eu realmente aprecio é o DBSCAN (cluster espacial de aplicativos com ruído baseado em densidade), que é um dos algoritmos de agrupamento mais usados.
fonte
Uma biblioteca python bem documentada para análise espacial que possui alguns agrupamentos é pySAL .
Outra biblioteca python no estágio de desenvolvimento focada no cluster espacial é o clusterPy (apresentação de slides em pdf) .
Com uma escolha mais limitada de algoritmos de cluster, mas com uma boa interface de mapeamento, está o software GUI GeoGrouper .
fonte