Eu tenho um quadrado 2D e tenho um conjunto de pontos dentro dele, digamos, 1000 pontos. Eu preciso de uma maneira de ver se a distribuição de pontos dentro do quadrado está espalhada (ou mais ou menos uniformemente distribuída) ou eles tendem a se reunir em algum ponto dentro do quadrado.
Eu preciso de uma maneira matemática / estatística (não de programação) para determinar isso. Pesquisei no Google, encontrei algo como boa forma, Kolmogorov, etc., e me pergunto se existem outras abordagens para conseguir isso. Precisa disso para o trabalho da turma.
Entradas: um quadrado 2D e 1000 pontos. Resultado: sim / não (sim = distribuído uniformemente, não = reunindo-se em alguns pontos).
R
, há muitas ferramentas para esta tarefa .Respostas:
Acho que a ideia de @John de um teste chi = square é um caminho a percorrer.
Mas é possível que um número diferente de células dê conclusões diferentes.
Outra possibilidade é calcular a distância média entre os pontos e depois compará-la com os resultados simulados dessa média. Isso evita o problema de um número arbitrário de células.
EDIT (mais na distância média)
Em seguida, você pode gerar N (um grande número) de conjuntos de 1000 pontos distribuídos uniformemente. Cada um desses N conjuntos também tem uma distância média entre os pontos.
Compare os resultados dos pontos reais com os pontos simulados, para obter um valor-p ou apenas para ver onde eles caem.
fonte
Outra possibilidade é um teste Qui-quadrado. Divida o quadrado em patches não sobrepostos de tamanho igual e teste as contagens dos pontos que caem nos patches contra as contagens esperadas sob uma hipótese de uniformidade (a expectativa de um patch é total_points / total_patches se todos tiverem o mesmo tamanho) e aplique o teste do qui-quadrado. Para 1000 pontos, 9 patches devem ser suficientes, mas convém usar mais granularidade, dependendo da aparência dos seus dados.
fonte
Por que não usar o teste Kolmogorov-Smirnov? É o que eu faria, especialmente considerando que o tamanho da sua amostra é grande o suficiente para compensar a falta de energia.
Como alternativa, você pode fazer alguma simulação. Não é rigoroso, mas fornece algumas evidências sobre se os dados são distribuídos uniformemente.
@whuber A extensão bidimensional do KS é bem conhecida (veja aqui ). Nesse caso, estamos investigando se esses 1000 desenhos (coordenadas (x, y)) podem ser extraídos da distribuição uniforme em duas dimensões - pelo menos é assim que eu leio "uniformemente espalhado". @ John, eu poderia ter me expressado desajeitadamente (nem matemática nem inglês são meus primeiros idiomas). O que eu quis dizer foi que o valor p exato pode ser calculado usando um teste como o KS, enquanto o valor p (ou o que você chama de equivalente) só tende assintoticamente ao fazer simulações.
fonte