Encontrando grupos de um conjunto de pontos em torno de outro conjunto de pontos de diferentes camadas?

10

Quero ver se existe um agrupamento de um certo tipo de construções (x) em torno de outro tipo de construções (y).

Os arquivos de dois pontos estão em camadas diferentes.

Não consigo descobrir qual ferramenta eu usaria para fazer isso.

Nikki
fonte

Respostas:

9

Nenhuma das ferramentas prontas para uso no ArcGIS (ou em qualquer outro GIS, AFAIK) fará o trabalho corretamente.

Em um problema como esse, você precisa quantificar o que você quer dizer com "agrupamento" e, em seguida, é necessário propor um modelo de probabilidade para avaliar se o grau medido de agrupamento pode ter sido produzido por chances acidentais.

Como um exemplo de como proceder, você pode optar por medir o agrupamento em termos de distâncias típicas entre edifícios do tipo x e o mais próximo de construção do tipo y . Esse é um cálculo fácil: basta representar os dois conjuntos de construções por camadas de pontos separadas e realizar uma junção espacial dos Ys aos Xs. A tabela de atributos, que ainda possui um registro para cada construção do tipo x , agora incluirá a distância até o y mais próximo . Você pode usar a distância média como sua medida.

Testar se isso pode ser o resultado do acaso é mais complicado. Uma interpretação plausível dessa configuração é que a presença anterior de edifícios do tipo y incentivou o desenvolvimento de edifícios do tipo x relativamente próximos dos y . Caso contrário, poderíamos supor que os edifícios do tipo x poderiam ter sido construídos em qualquer lugar em que outros edifícios também aparecessem. Isso leva ao seguinte teste de permutação simples . Crie uma camada de pontos de todos os locais possíveis onde os edifícios do tipo x podem ter aparecido. Essa camada pode ser a localização de todos os edifícios na área erguida durante o mesmo período que o xedifícios eram (incluindo os próprios edifícios x , é claro). Una espacialmente a camada y para obter as distâncias até a construção do tipo y mais próxima . O restante do cálculo funciona com base na tabela de atributos: os cálculos geográficos são feitos. O que você fará é usar repetidamente um gerador de números aleatórios para obter uma amostra aleatória simples de todos esses edifícios, cada amostra tendo exatamente tantos elementos quanto os edifícios do tipo x . Calcule a distância média para esta amostra. Repita até que você tenha muitas estatísticas de distância média. Se quase todas essas distâncias médias obtidas aleatoriamente forem maiores que a distância média que você mediu para xtipo edifícios, você pode concluir que os x não são agrupados por acaso: o efeito é real.

(Esses cálculos são melhor programados em uma plataforma adequada para esses fins, como `R ', mas quase qualquer software de computação pode ser colocado em serviço, mesmo o Excel. A programação é muito, exigindo pouco mais do que saber como escrever loops e selecionar elementos de matrizes aleatoriamente.)

Essa abordagem de teste de permutação é superior às soluções pré-programadas, porque explica explicitamente os padrões de desenvolvimento da construção nessa área. Se você não fizer isso, muitas vezes você vai encontrar provas "significativo" de clustering, mas você não pode concluir nada de útil a partir dele, porque o agrupamento pode ter sido causado por outros factores, tais como os padrões de estradas, os locais de sites adequados para desenvolvimento e muitas outras coisas.

whuber
fonte
1
Sei que essa resposta é um pouco abstrata. Quando tiver mais tempo, tentarei criar uma ilustração realista.
whuber
Para aqueles que usam R, recomendo dar uma olhada no pacote spatstat ( cran.r-project.org/web/packages/spatstat/index.html ) para análise de cluster.
Om_henners
2

Obviamente, seu método de análise de dados deve depender do problema substantivo que motivou a análise.

Mas aqui estão algumas idéias:

Da ESRI:

Como a Análise de Cluster Espacial com Multidistância: A função k de Ripley (Estatística Espacial) funciona , onde i e j na equação denotariam seus edifícios x e y. A função K de Ripley fornecerá inferência probabilística.

Da ciência da computação:

Existem algoritmos complexos para a descoberta de padrões de co-localização que você pode pesquisar no Google.

b_dev
fonte
A "idéia simples de plotagem" é interessante, mas você precisa de algo para compará-la: por si só, é difícil extrair informações úteis dela. A função K de Ripley também é uma ferramenta útil, mas, infelizmente, em muitos casos, apenas reflete a geometria do conjunto de dados. Com casas em uma área suburbana ou rural, que tendem a permanecer ao longo de características lineares (estradas), a função K mostra claramente um agrupamento "significativo" apenas por esse motivo. Como tal, não revela nada útil sobre casas além de serem construídas perto de estradas!
whuber
@whuber 1 Obrigado pela explicação do problema da função K de Ripley. Segundo, quando vemos uma parcela dos preços das ações ao longo do tempo, podemos procurar tendências gerais para cima ou para baixo ou aleatoriamente, também podemos escolher tempos em que houve grandes reduções ou aumentos e perguntar por quê. Um gráfico de como a concentração de edifícios muda à medida que a distância muda pode ser usado da mesma maneira. Ele pode ser usado para procurar picos de concentração, o que é uma evidência contra uma distribuição aleatória, também pode ser usado para focar uma investigação mais aprofundada de picos curiosos.
b_dev
Você está certo. O que quero dizer é que a trama por si só não nos diz nada sobre agrupamento. Talvez uma boa analogia (em vez dos preços das ações) seja um mapa detalhado do número de casos de câncer de rim pelo estado 2000-2010 nos EUA. Isso também não nos diz nada sobre agrupamentos (geográficos) porque não leva em conta variações na população entre estados. Da mesma forma, um gráfico K-cross precisa de uma normalização ou referência adequada para ser interpretável. As tendências gerais, picos, etc., podem estar apenas refletindo os padrões geográficos de todos os locais de construção.
whuber
@whuber Você está certo. Depois de ler o comentário acima, decidi que minha Simple Plot Idea não fornecerá muita informação, pelo menos como foi descrita, por isso a removi para não confundir as pessoas. Agora acredito que a estatística de contagem conjunta é o método mais simples para abordar o problema.
b_dev
2

Eu nunca fiz análise de cluster no GIS, mas seria mais fácil se você criar pontos / polígonos para representar um determinado cluster de X e / ou Y. Por exemplo, se você criou pontos para significar a construção de Y, poderá use a ferramenta Distância do ponto para obter todos os pontos do edifício X a uma determinada distância dos locais de origem.

Caso contrário, criar um buffer em torno dos prédios do tipo Y e selecionar todos os prédios do tipo X obterá o mesmo resultado se você não tiver o ArcInfo.

Nathanus
fonte
0

Você pode combinar as duas camadas adicionando uma coluna binária (0,1) para identificar se a construção é de X ou Y.

A partir daí, usando o GeoDa, você poderia identificar a autocorrelação espacial local (clustering) e determinar se era alto-baixo (uma camada agrupada em torno da outra camada) baixo-alto (inverso) ou alto-alto ou baixo-baixo (auto- agrupamento). Guia do usuário aqui (.pdf)

raphael
fonte