Como encontrar a distância esperada entre dois pontos uniformemente distribuídos?

9

Se eu fosse definir as coordenadas e onde(X1,Y1)(X2,Y2)

X1,X2Unif(0,30) and Y1,Y2Unif(0,40).

Como eu encontraria o valor esperado da distância entre eles?

Eu estava pensando, já que a distância é calculada por seria o valor esperado basta ser ?(X1X2)2+(Y1Y2)2)(1/30+1/30)2+(1/40+1/40)2

Mathlete
fonte
Seu código LaTeX não estava sendo renderizado corretamente. Espero que minha solução seja o que você pretendia.
Peter Flom - Reinstate Monica
Quase, mas me ajudou a chegar lá no final, muito obrigado.
Mathlete
2
Pergunta equivalente no site de matemática: Distância média entre pontos aleatórios em um retângulo . Uma questão relacionada: Probabilidade de que pontos aleatoriamente uniformes em um retângulo tenham distância euclidiana menor que um determinado limite . (Infelizmente, eu nunca cheguei a assumir @whuber em suas sugestões lá eu vou tentar encontrar algum tempo para fazer isso..)
cardeal
11
Obrigado por esses links, @ cardinal. Embora a versão matemática não explique a resposta - ela apenas a apresenta - ela contém links para uma derivação, que vale a pena revisar.
whuber

Respostas:

2
##problem
x <- runif(1000000,0,30)
y <- runif(1000000,0,40)
Uniform <- as.data.frame(cbind(x,y))
n <- nrow(Uniform)
catch <- rep(NA,n)
for (i in 2:n) {
      catch[i] <-((x[i+1]-x[i])^2 + (y[i+1]-y[i])^2)^.5
}
mean(catch, na.rm=TRUE)
18.35855

Se eu entendi corretamente o que você está procurando, talvez isso ajude. Você está tentando descobrir a distância entre os pontos aleatórios, cujos valores X são gerados a partir de unif (0,30) e os valores Y são gerados a partir de um unif (0,40). Acabei de criar um milhão de RVs de cada uma dessas distribuições e, em seguida, vinculei xey para criar um ponto para cada uma delas. Então calculei a distância entre os pontos 2 e 1 até a distância entre os pontos 1.000.000 e 999.999. A distância média foi de 18.35855. Deixe-me saber se não é isso que você estava procurando.

Eric Peterson
fonte
Tomou a liberdade de edição para formatação.
21133 curious_cat
2
Você chegou bem perto - talvez por acaso. A resposta verdadeira é = . Seu código tem dois problemas: (1) as iterações não são mutuamente independentes; e (2) para obter precisão razoável, deve ser codificado para ser mais rápido. Por que não fazer a simulação diretamente, como em . Isso fornecerá a você cerca de quatro números significativos (em menos tempo), como você pode verificar calculando o erro padrão . 1108(871+960log(2)+405log(3))18.345919n <- 10^7; distance <- sqrt((runif(n,0,30)-runif(n,0,30))^2 + (runif(n,0,40)-runif(n,0,40))^2)sd(distance) / sqrt(n)
whuber
@ whuber: Você pode explicar o seu # 1? por exemplo, digamos (Caso-I), desenhei pares de números aleatórios de qualquer distribuição e calculei diferenças e calculei a média. Versus (Caso II) Continuei desenhando um número de cada vez e calculei as diferenças em execução em relação ao último sorteio de números e depois calculei a média. A média relatada pelo Caso I e Caso II seria sistematicamente diferente?
23133 curious_cat
11
@curious_cat Não, as médias seriam as mesmas: mas o cálculo do erro padrão seria diferente. Precisamos desse cálculo para estimar quão perto a média provavelmente chegará ao valor verdadeiro. Em vez de calcular o cálculo SE mais complicado, é mais simples gerar pares de pontos completamente independentes um do outro, exatamente como estipulado na pergunta. (Há tantas maneiras uma simulação pode dar errado - Eu sei por experiência -. Que é aconselhável fazer a simulação imitar a realidade, tanto quanto possível)
whuber
@ whuber: Obrigado por esclarecer. Então, se Clark tivesse executado seu código por mais tempo, ele poderia ter conseguido mais casas decimais, certo?
23133 curious_cat
16

É claro, olhando a questão geometricamente, que a distância esperada entre dois pontos independentes, uniformes e aleatórios dentro de um conjunto convexo será um pouco menos da metade do seu diâmetro . (Deve ser menor porque é relativamente raro os dois pontos estarem localizados em áreas extremas, como cantos e, com maior frequência, no caso em que estarão próximos ao centro, onde estão próximos.) Como o diâmetro desse retângulo é , por isso só o raciocínio anteciparíamos que a resposta seria um pouco menor que .5025

Uma resposta exata é obtida a partir da definição de expectativa como o valor ponderado pela probabilidade da distância. Em geral, considere um retângulo dos lados e ; escalaremos para o tamanho correto posteriormente (configurando e multiplicando a expectativa por ). Para esse retângulo, usando as coordenadas , a densidade de probabilidade uniforme é . A distância média dentro deste retângulo é dada por1λλ=40/3030(x,y)1λdxdy

0λ010λ01(x1x2)2+(y1y2)21λdx1dy11λdx2dy2.

Usando métodos elementares de integração, isso é simples, mas doloroso; Empreguei um sistema de álgebra computacional ( Mathematica ) para obter a resposta

[2+2λ521+λ2+6λ21+λ22λ41+λ2+5λArcSinh(λ)+5λ4log(1+1+λ2λ)]/(30λ2).

A presença de em muitos desses termos não é surpresa: é o diâmetro do retângulo (a distância máxima possível entre dois pontos dentro dele). A aparência dos logaritmos (que inclui o arco-e-flecha) também não é surpreendente, se você já investigou distâncias médias em figuras simples de avião: de alguma forma, ele sempre aparece (uma dica disso aparece na integral da função secante). Aliás, a presença de no denominador não tem nada a ver com as especificidades do problema envolvendo um retângulo dos lados e : é uma constante universal.)1+λ2303040

Com e escalonado por um fator de , isso é avaliado como .λ=4/3301108(871+960log(2)+405log(3))18.345919


Uma maneira de entender a situação mais profundamente é plotar a distância média em relação ao diâmetro de para valores variáveis ​​de . Para valores extremos (próximo de ou muito maior que ), o retângulo se torna essencialmente unidimensional e uma integração mais elementar indica que a distância média deve reduzir para um terço do diâmetro. Além disso, como as formas dos retângulos com e são as mesmas, é natural plotar o resultado em uma escala logarítmica de , onde deve ser simétrico sobre (o quadrado). Aqui está: λ01λ1/λλλ=11+λ2λ01λ1/λλλ=1

Enredo

Com isso, aprendemos uma regra prática : a distância média dentro de um retângulo está entre e (aproximadamente) de seu diâmetro, com os valores maiores associados aos retângulos quadrados e os valores menores associados aos longos skinny (linear ) retângulos. O ponto médio entre esses extremos é alcançado aproximadamente para retângulos com proporções de . Com essa regra em mente, você pode simplesmente olhar para um retângulo e estimar sua distância média para dois números significativos.0,37 3 : 11/30.330.373:1

whuber
fonte
Isso deveria ser "diagonal" em vez de "diâmetro"? Desculpe se eu estou nitpicking.
21133 curious_cat
@curious_cat Por definição, o diâmetro de um conjunto de pontos (em qualquer espaço métrico) é o supremo das distâncias entre quaisquer dois pontos nele. Para um retângulo, é (obviamente) o comprimento de uma diagonal.
whuber
Obrigado! Eu não percebi isso. Eu estava usando um conceito ingênuo de diâmetro.
22133 curious_cat
Como um aparte: para todos os retângulos de uma determinada área, a distância média seria minimizada para um quadrado?
22133 curious_cat
2
No espírito disso , eu gostaria que você tivesse começado esta resposta com "É plano ..." (+1)
cardeal