Meça a uniformidade da distribuição dos pontos em um quadrado 2D

Eu tenho um quadrado 2D e tenho um conjunto de pontos dentro dele, digamos, 1000 pontos. Eu preciso de uma maneira de ver se a distribuição de pontos dentro do quadrado está espalhada (ou mais ou menos uniformemente distribuída) ou eles tendem a se reunir em algum ponto dentro do quadrado.

Eu preciso de uma maneira matemática / estatística (não de programação) para determinar isso. Pesquisei no Google, encontrei algo como boa forma, Kolmogorov, etc., e me pergunto se existem outras abordagens para conseguir isso. Precisa disso para o trabalho da turma.

Entradas: um quadrado 2D e 1000 pontos. Resultado: sim / não (sim = distribuído uniformemente, não = reunindo-se em alguns pontos).

distributions probability spatial point-process furgão
fonte

Você não articulou o suficiente exatamente o que é "distribuído uniformemente" para você. Você quer dizer cubo uniforme 2D uniformemente lado a lado ou algo mais? Por exemplo, cadeia de pontos uniformemente espaçada? ou um círculo de pontos? Em certo sentido, esses números também são spreads uniformes.

ttnphns

@ttnphns Nesse contexto, "uniforme" tem um significado convencional bem estabelecido. Corresponde a um processo de Poisson com intensidade constante. É conhecido como "CSR" completamente espacialmente aleatório .

whuber

@ Van Você deseja pesquisar "processos de pontos espaciais". Boas palavras-chave incluem "função Ripley K", "CSR" e "Poisson". Uma referência acessível para você seria O'Sullivan & Unwin, Geographic Information Analysis. Um clássico é Ripley, Spatial Statistics : se concentra em processos pontuais. Para aplicativos, dê uma olhada rápida no CrimeStat . Se você estiver familiarizado R, há muitas ferramentas para esta tarefa .

whuber

Respostas:

Acho que a ideia de @John de um teste chi = square é um caminho a percorrer.

$\frac{1000}{N}$

Mas é possível que um número diferente de células dê conclusões diferentes.

Outra possibilidade é calcular a distância média entre os pontos e depois compará-la com os resultados simulados dessa média. Isso evita o problema de um número arbitrário de células.

EDIT (mais na distância média)

$\frac{1000*999}{2}$

Em seguida, você pode gerar N (um grande número) de conjuntos de 1000 pontos distribuídos uniformemente. Cada um desses N conjuntos também tem uma distância média entre os pontos.

Compare os resultados dos pontos reais com os pontos simulados, para obter um valor-p ou apenas para ver onde eles caem.

Peter Flom - Restabelece Monica
fonte

Concordo que o qui-quadrado de uma amostra ("teste qui-quadrado de concordância") está entre as maneiras razoáveis. Mas você pode elaborar mais sobre sua proposta de "distância média"? Eu não entendi direito.

ttnphns

@ttnphns, aqueles usados na análise espacial são o teste de vizinho mais próximo (também conhecido como teste de Clark e Evans) ou o K. de Ripley. Veja a biblioteca R do spatstat ou a documentação do CrimeStat para obter exemplos. Outra possibilidade baseada na simulação são os testes de "varredura", mas eles não são baseados em distâncias médias.

Andy W

Outra possibilidade é um teste Qui-quadrado. Divida o quadrado em patches não sobrepostos de tamanho igual e teste as contagens dos pontos que caem nos patches contra as contagens esperadas sob uma hipótese de uniformidade (a expectativa de um patch é total_points / total_patches se todos tiverem o mesmo tamanho) e aplique o teste do qui-quadrado. Para 1000 pontos, 9 patches devem ser suficientes, mas convém usar mais granularidade, dependendo da aparência dos seus dados.

Ben Allison
fonte

Eu acho que você gosta de algo, mas uma boa adequação do qui-quadrado comparando as contagens reais em cada célula com uma contagem esperada de células iguais seria o que você gostaria. O uso de um teste de contingência NÃO testaria se havia distribuição uniforme entre suas células, apenas se a linha dependesse da coluna.

John

Além disso, o teste do qui-quadrado informaria apenas se eles não fossem uniformes nas células selecionadas. Não diria se eram uniformes.

John

Sim, eu quis dizer as contagens contra as contagens esperadas sob uma hipótese nula de uniformidade, minhas desculpas se não estivesse claro. Você pode apenas visualizá-lo como uma tabela que ajuda a entender o que está acontecendo para os não iniciados! E, obviamente, você está limitado a testar contra as células que você selecionar, em vez de uniformidade no sentido abstrato

Ben Allison

@ John, normalmente quando se faz esse "teste de dispersão", normalmente se faz um teste de duas faces. Se você realmente queria ver se o padrão era mais uniforme do que o esperado por acaso, basta olhar para ver se o teste do qui-quadrado caiu na cauda esquerda da distribuição (no ponto de corte que você preferir).

Andy W

Andy, você deve fornecer uma resposta que detalha esse teste de qualidade do ajuste bilateral. Normalmente, os testes frente e verso apenas testam duas alternativas diferentes para nulo, mas ainda não conseguem demonstrar o nulo. Sua proposta é intrigante.

John

Por que não usar o teste Kolmogorov-Smirnov? É o que eu faria, especialmente considerando que o tamanho da sua amostra é grande o suficiente para compensar a falta de energia.

Como alternativa, você pode fazer alguma simulação. Não é rigoroso, mas fornece algumas evidências sobre se os dados são distribuídos uniformemente.

@whuber A extensão bidimensional do KS é bem conhecida (veja aqui ). Nesse caso, estamos investigando se esses 1000 desenhos (coordenadas (x, y)) podem ser extraídos da distribuição uniforme em duas dimensões - pelo menos é assim que eu leio "uniformemente espalhado". @ John, eu poderia ter me expressado desajeitadamente (nem matemática nem inglês são meus primeiros idiomas). O que eu quis dizer foi que o valor p exato pode ser calculado usando um teste como o KS, enquanto o valor p (ou o que você chama de equivalente) só tende assintoticamente ao fazer simulações.

abaumann
fonte

Por que a simulação não seria rigorosa?

John

Você poderia explicar como o teste KS - destinado a conjuntos de números reais que se supõe serem os resultados de uma variável aleatória contínua - seria aplicado a esse conjunto de dados espaciais ?

whuber

Editei minha resposta para tentar fornecer respostas para sua resposta. Melhor.

abaumann

@ John Eu tentei explicar o que eu quis dizer. Melhor.

abaumann