Suponha que temos pontos em um retangular com limite , e esses pontos são distribuídos uniformemente neste plano. (Não conheço bem as estatísticas, portanto não sei a diferença entre escolher uniformemente um nó na área ou escolher uniformemente o eixo- de e eixo de independentemente).
Dado um limite de distância , talvez eu queira saber a probabilidade de que a distância euclidiana de dois pontos seja menor que ou, mais precisamente, a distância de quantos pares de nós será menor que ?
Talvez a descrição a seguir seja inequívoca.
Deixe-me especificar este problema. Dados nós e limite . Esses pontos são distribuídos uniformemente em um retângulo . Denote uma variável aleatória como o número de pares de pontos dentro da distância . Encontre .
probability
distance
zhouzhuojie
fonte
fonte
probability
.Respostas:
Podemos resolver esse problema analiticamente usando alguma intuição e argumentos geométricos . Infelizmente, a resposta é bastante longa e um pouco confusa.
Configuração básica
Primeiro, vamos definir uma notação. Suponha que desenhamos pontos uniformemente aleatoriamente a partir do retângulo . Assumimos sem perda de generalidade que . Seja as coordenadas do primeiro ponto e sejam as coordenadas do segundo ponto. Então, , ,[0,a]×[0,b] 0<b<a (X1,Y1) (X2,Y2) X1 X2 Y1 e Y2 são mutuamente independentes com Xi distribuído uniformemente em [0,a] e Yi distribuído uniformemente em [0,b] .
Considere a distância euclidiana entre os dois pontos. Isto é
Distribuições triangulares
Desde aX1 e X2 são uniformes independentes, então X1−X2 tem uma distribuição triangular, de onde Z1=|X1−X2| tem uma distribuição com função de densidade
Note que desdeZ1 é uma função apenas dos dois Xi e Z2 é uma função apenas do Yi , então Z1 e Z2 são independentes. Portanto, a distância entre os pontos é a norma euclidiana de duas variáveis aleatórias independentes (com distribuições diferentes).
O painel esquerdo da figura mostra a distribuição deX1−X2 e o painel direito mostra Z1=|X1−X2| Onde a=5 neste exemplo.
Alguma probabilidade geométrica
assimZ1 e Z2 são independentes e são suportados em [0,a] e [0,b] respectivamente. Para fixod , a função de distribuição da distância euclidiana é
Podemos pensar nisso geometricamente como tendo uma distribuição no retângulo e considerando um quarto de círculo de raio . Gostaríamos de saber a probabilidade que existe dentro da interseção dessas duas regiões. Há três possibilidades diferentes a serem consideradas:[0,a]×[0,b] d
Região 1 (laranja): . Aqui o quarto de círculo fica completamente dentro do retângulo.0≤d<b
Região 2 (vermelha): . Aqui o quarto de círculo cruza o retângulo ao longo das bordas superior e inferior.b≤d≤a
Região 3 (azul): . O quarto de círculo cruza o retângulo ao longo das bordas superior e direita.a<d≤a2+b2−−−−−−√
Aqui está uma figura, onde desenhamos um raio de exemplo de cada um dos três tipos. O retângulo é definido por , . O mapa de calor em escala de cinza no retângulo mostra a densidade que as áreas escuras têm maior densidade e as áreas mais claras, com menor densidade. Clicar na figura abrirá uma versão maior dela.a=5 b=4 fa(z1)fb(z2)dz1dz2
Algum cálculo feio
Para calcular as probabilidades, precisamos fazer algum cálculo. Vamos considerar cada uma das regiões, por sua vez, e veremos que uma integral comum surgirá. Essa integral tem uma forma fechada, embora não seja muito bonita.
Região 1 : .0≤d<b
Agora, a integral interna produz . Portanto, resta calcular uma integral da forma onde neste caso de interesse . A antiderivada do integrando é1a2d2−y2−−−−−−√(2a−d2−y2−−−−−−√)
A partir disso, obtemos que .P(D≤d)=2a2b2(G(d)−G(0))
Região 2 : .b≤d≤a
Região 3 : .a<d≤a2+b2−−−−−−√
Abaixo está uma simulação de 20000 pontos onde plotamos a distribuição empírica como pontos cinzas e a distribuição teórica como uma linha, colorida de acordo com a região específica que se aplica.
A partir da mesma simulação, abaixo, plotamos os 100 primeiros pares de pontos e desenhamos linhas entre eles. Cada um é colorido de acordo com a distância entre o par de pontos e em qual região essa distância se encaixa.
O número esperado de pares de pontos dentro da distância é simplesmente pela linearidade da expectativa.d
fonte
Se os pontos são realmente uniformemente distribuídos, ou seja, em um padrão conhecido fixo, para qualquer distância d, você pode simplesmente fazer um loop sobre todos os pares e contar os que estão à distância. Sua probabilidade é (esse número / n).
Se você tem a liberdade adicional de escolher como os n pontos são distribuídos / escolhidos, essa é a versão retangular do paradoxo de Bertrand . Essa página mostra várias maneiras de responder a essa pergunta com base em como você distribui seus pontos.
fonte