Como calcular o desvio padrão 2D, com média 0, limitado por limites

10

Meu problema é o seguinte: jogo 40 bolas de uma só vez a partir de um certo ponto, a alguns metros do chão. As bolas rolam e param. Usando a visão computacional, calculo o centro de massa no plano XY. Estou interessado apenas na distância do centro de massa a cada bola, que é calculada usando uma geometria simples. Agora, quero saber o desvio padrão unilateral do centro. Assim, eu seria capaz de saber que um certo número de bolas está dentro de um raio padrão, mais bolas dentro de um raio padrão de 2 * e assim por diante. Como calculo o desvio padrão unilateral? Uma abordagem normal afirmaria que metade das bolas estão no "lado negativo" da média de 0. É claro que isso não faz sentido neste experimento. Tenho que garantir que as bolas estejam em conformidade com a distribuição padrão? Obrigado por qualquer ajuda.

K_scheduler
fonte

Respostas:

13

Para caracterizar a quantidade de dispersão 2D em torno do centróide, você só quer a distância quadrada média (raiz),

σ^=RMS=1ni((xix¯)2+(yiy¯)2).

Nesta fórmula, são as coordenadas do ponto e seu centróide (ponto de médias) é( ˉ x , ˉ y ) .(xi,yi),i=1,2,,n(x¯,y¯).


A pergunta pede a distribuição das distâncias. Quando as bolas têm uma distribuição normal isotrópica bivariada em torno do centróide - que é uma suposição padrão e fisicamente razoável - a distância ao quadrado é proporcional a uma distribuição qui-quadrado com dois graus de liberdade (um para cada coordenada). Essa é uma conseqüência direta de uma definição da distribuição qui-quadrado como uma soma dos quadrados das variáveis ​​normais padrão independentes, porque é uma combinação linear de variáveis ​​normais independentes com expectativa Escrevendo a variação comum doE[xi- ˉ x ]=n-1

xix¯=n1nxiji1nxj
xiσ2E[(xi- ˉ x )2]=Var(xi- ˉ x )=( n - 1
E[xix¯]=n1nE[xi]ji1nE[xj]=0.
xicomo , A suposição de anisotropia é que tem a mesma distribuição que e são independentes deles, portanto, um resultado idêntico é válido para a distribuição de . Isso estabelece a constante de proporcionalidade: os quadrados das distâncias têm uma distribuição qui-quadrado com dois graus de liberdade, escalados por .σ2
E[(xix¯)2]=Var(xix¯)=(n1n)2Var(xi)+ji(1n)2Var(xj)=n1nσ2.
yjxi(yjy¯)2n1nσ2

O teste mais severo dessas equações é o caso , pois a fração difere mais de . Ao simular a experiência, tanto para e , e overplotting os histogramas de distâncias quadradas com as distribuições do qui-quadrado dimensionado (em vermelho), podemos verificar esta teoria.n=2n1n1n=2n=40

Figura

Cada linha mostra os mesmos dados: à esquerda, o eixo x é logarítmico; à direita, mostra a distância ao quadrado real. O verdadeiro valor de para essas simulações foi definido como .σ1

Esses resultados são para 100.000 iterações com e 50.000 iterações com . Os acordos entre os histogramas e as densidades qui-quadrado são excelentes.n=2n=40


Embora seja desconhecido, ele pode ser estimado de várias maneiras. Por exemplo, a distância quadrática média deve ser vezes a média de , que é . Com , por exemplo, calcule como vezes a distância quadrática média. Assim, uma estimativa de seria vezes a distância do RMS. Usando valores da , podemos dizer que:σ2n1nσ2χ222n=40σ24039/2σ40/78χ22

  • Aproximadamente 39% das distâncias serão menores que , porque 39% de uma é menor que .39/40σ^χ221

  • Aproximadamente 78% das distâncias serão menores que vezes , porque 78% de uma é menor que .339/40σ^χ223

E assim por diante, para qualquer múltiplo que você queira usar no lugar de ou . Como verificação, nas simulações para plotadas anteriormente, as proporções reais de distâncias quadradas menores que vezes foram13n=401,2,,10n1nσ^2

0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933

As proporções teóricas são

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

O acordo é excelente.


Aqui está o Rcódigo para conduzir e analisar as simulações.

f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
  #
  # Generate `n.iter` experiments in which `n` locations are generated using
  # standard normal variates for their coordinates.
  #
  xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
  #
  # Compute the squared distances to the centers for each experiment.
  #
  xy.center <- apply(xy, c(1,2), mean)
  xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3), 
                         function(z) sum(z^2))
  #
  # Optionally plot histograms.
  #
  if(plot) {
    xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]

    hist(log(xy.plot), prob=TRUE, breaks=30,
         main=paste("Histogram of log squared distance, n=", n),
         xlab="Log squared distance")
    curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1), 
          from=log(min(xy.plot)), to=log(max(xy.plot)), 
          n=513, add=TRUE, col="Red", lwd=2)

    hist(xy.plot, prob=TRUE, breaks=30,
         main=paste("Histogram of squared distance, n=", n),
         xlab="Squared distance")
    curve(n/(n-1) * dchisq(n/(n-1) * x, df=2), 
          from=min(xy.plot), to=max(xy.plot), 
          n=513, add=TRUE, col="Red", lwd=2)  
  }
  return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2, 
                    (0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)
whuber
fonte
2
Obrigado por uma resposta muito abrangente. Não consigo entender bem como a fórmula RMS pode descrever o desvio padrão sem dividir pelo número de bolas. Se você compará-lo com http://en.wikipedia.org/wiki/Root-mean-square_deviation_(bioinformatics, eles dividiram a soma por N. Se a soma for dividida por N ou N-1 (já que 40 bolas é apenas uma seleção a partir de uma população de bolas?)
K_scheduler 01/08
Depois de fazer os cálculos novamente, parece que sqrt (SDx ^ 2 + SDy ^ 2) é o que estou procurando. Isso me dará um raio para um círculo que contém todas as bolas com uma probabilidade de 65%, certo?
K_scheduler
Essa é uma fórmula equivalente para o RMS, mas o valor de 65% está incorreto, conforme explicado nesta resposta.
Whuber
2
@nali Todos esses pontos são claramente apresentados na minha resposta aqui.
whuber
4
@nali Suas postagens aqui vão além dos limites de propriedade em seus ataques rudes e ad hominem . Embora eu não esteja preocupado em ser considerado ignorante ou estúpido, como moderador deste site, tenho que me preocupar em manter o discurso civilizado e, portanto, não posso tolerar a vituperação que você está postando. Consequentemente, excluí seu último comentário. Se eu vir comentários seus de maneira similar, com relação a alguém, eu os excluirei sem aviso prévio e eu (ou outros moderadores) tomaremos medidas imediatas para limitar suas interações neste site.
whuber
4

Eu acho que você tem algumas coisas um pouco confusas. É verdade que a distância não pode ser negativa, mas isso não afeta o cálculo do desvio padrão. Embora isso signifique que a distribuição das distâncias não possa ser exatamente normal, ainda pode estar próxima; mas mesmo que esteja longe do normal, ainda há um desvio padrão.

Além disso, não há desvio padrão "unilateral" - você pode estar pensando em testes de hipóteses (que podem ser unilaterais ou bilaterais). No seu título, você diz que a média é 0, mas a distância média não será 0 (a menos que as bolas estejam em uma pilha com 40 bolas de altura!) E você diz que há limites - pode haver limites se as bolas caírem uma sala, então eles não podem estar mais longe do centro do que a distância da parede mais próxima. Mas, a menos que algumas bolas batam contra a parede, isso não afetará as coisas.

Assim, depois de ter as 40 distâncias, você calcula o desvio padrão (e média, mediana, intervalo interquartil, etc.) usando métodos padrão. Você também pode fazer gráficos da distância (por exemplo, gráfico normal quantil, gráfico em caixa) para ver se ele é distribuído normalmente (se isso for de seu interesse).

Peter Flom - Restabelece Monica
fonte
Obrigado Peter, não me expressei corretamente. Deixe-me tentar esclarecer: imagine a cena de cima. Você calcula a distância média, ela será ilustrada como um círculo ao redor do centro de massa (distância média = raio). Agora, +/- desvio padrão disso produzirá um círculo menor e um círculo maior. Não quero saber o desvio padrão da distância média ao centro de massa, mas o desvio padrão do centro de massa para o exterior. Em outras palavras, dentro do raio do centro de massa de 68,2% (um desvio padrão) das bolas situadas.
K_scheduler
Ah ok. Então eu acho que isso não é um problema de estatística, mas um problema de matemática; encontrar onde 68,2% cairá é conhecido ... Eu esqueço a resposta, mas ela envolve . π
Peter Flom - Restabelece Monica
Você pode estar certo em sua primeira resposta. Pelo que descobri, usar o desvio padrão radial deve fazer o truque. RSD = sqrt (SDx ^ 2 + SDy ^ 2)
K_scheduler
1

Já faz um tempo desde que isso foi feito, mas a resposta para a pergunta é que essa é a distribuição 2D denominada distribuição Rayleigh. Aqui, a suposição é que o fator de forma Rayleigh é igual aos desvios padrão das coordenadas X e Y. Na prática, o valor do fator de forma seria calculado a partir da média combinada do desvio padrão de X e Y.

XN(μx,σx2)
YN(μy,σy2)

use distribuição normal bivariante.

f(x,y)=12πσxσy1ρ2exp(12(1ρ2)[(xμx)2σx2+(yμy)2σy22ρ(xμx)(yμy)σxσy])

para o ponto e assuma .

(μx,μy)
ρ=0

Suponha também que então substitua ambos por

σx2=σy2
σ2

então a distribuição 2D é expressa como o raio ao redor do ponto conhecido como distribuição de Rayleigh .

(μx,μy)

PDF(r;σ)=rσ2exp(r22σ2)
que e
σ=σx=σy
ri=(xiμx)2+(yiμy)2

CDF(r;σ)=1exp(r22σ2)

Claro que isso é para a distribuição contínua. Para uma amostra de apenas 40 bolas, não há solução exata. Você precisaria fazer uma análise de Monte Carlo com uma amostra de 40 bolas. Taylor, MS e Grubbs, Frank E. (1975). "Distribuições de probabilidade aproximadas para a propagação extrema" encontraram estimativas para a distribuição de Chi e o log-normal para isso se ajustaria à distribuição de uma amostra.


Editar - Apesar da dúvida de Wuber, as proporções teóricas que ele calculou são:

0,3935 0,6321 0,7769 0,8647 0,9179 0,9502 0,9698 0,9817 0,9889 0,9933

A partir da função CDF, os valores cumulativos de Sigma para r (em sigmas) iguais a variam de:

0-1, 0-2, 0-3, ..., 0-10

são:

0,3935, 0,6321, 0,7769, 0,8647, 0,9179, 0,9502, 0,9698, 0,9817, 0,9889, 0,9933

MaxW
fonte
Obrigado por nomear a distribuição. No entanto, (1) não diferenciando o parâmetro da distribuição e as estimativas desse parâmetro derivado dos dados, (2) não afirmando as suposições (fortes) necessárias sobre a distribuição das bolas e (3) sendo vago, você corre o risco leitores enganosos. De fato, não está claro qual é a referência do seu "isto": seria a distribuição dos locais das bolas? (Não) A distribuição do centro de massa? (Sim, mas com um parâmetro de escala que difere do desvio padrão das bolas.) Deseja esclarecer sua resposta?
whuber
preencheu as lacunas ....
MaxW:
Obrigado pelos esclarecimentos, máx. Como uma verificação simples da exatidão de sua resposta, vamos considerar uma bola em vez de . Sua resposta parece reivindicar que a distribuição da distância entre esta bola e o centro de massa de todas as bolas é uma distribuição Rayleigh. Infelizmente, nesse caso, a distância é sempre zero. (A pergunta a descreve especificamente como "a distância do centro de massa a cada bola, que é calculada usando uma geometria simples".) Isso sugere que sua resposta pode estar errada em todos os casos, inclusive em bolas. 404040
whuber
A distribuição é sobre o centro de massa.
MaxW
O CDF está configurado para uma bola, é claro. Do CDF, 39% das bolas cairão dentro de um círculo σ, 86% dentro de 2σ e 99% dentro de 3σ.
MaxW
-1

A distribuição normal, valores positivos e negativos, faz sentido se você reconhecer que essa distribuição normal é para raio ou "distância do centróide". A outra variável, ângulo, é aleatória e é distribuída uniformemente de 0-pi

hackear
fonte
O raio, que nunca pode ser negativo, definitivamente não terá uma distribuição Normal!
whuber