Considere a soma de

40

Eu estive pensando sobre isso por um tempo; Acho um pouco estranho o quão abruptamente isso acontece. Basicamente, por que precisamos de apenas três uniformes para que o Zn seja mais suave? E por que a suavização ocorre com tanta rapidez?

Z2 :

2

Z3 :

3

(imagens descaradamente roubadas do blog de John D. Cook: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ )

Por que não leva, digamos, quatro uniformes? Ou cinco? Ou...?

tetragrammaton
fonte
11
bem, para ser tão simples quanto fácil, porque a soma de três uniformes tem segmentos quadráticos em seu PF, e quando você obtém dois ou mais uniformes, você tem um pico na média. Um pico quadrático é "suave" ... e as junções entre as peças quadráticas estão em 1 e 2, portanto, não pode dobrar em 1,5; existem outras maneiras de chegar à mesma conclusão
Glen_b 30/10

Respostas:

71

Podemos adotar várias abordagens para isso, qualquer uma das quais pode parecer intuitiva para algumas pessoas e menos intuitiva para outras. Para acomodar essa variação, esta resposta examina várias dessas abordagens, cobrindo as principais divisões do pensamento matemático - análise (o infinito e o infinitesimal), geometria / topologia (relações espaciais) e álgebra (padrões formais de manipulação simbólica) - como bem como a própria probabilidade. Ele culmina com uma observação que unifica todas as quatro abordagens, demonstra que há uma pergunta genuína a ser respondida aqui e mostra exatamente qual é o problema. Cada abordagem fornece, à sua maneira, uma visão mais profunda da natureza das formas das funções de distribuição de probabilidade de somas de variáveis ​​uniformes independentes.


fundo

A distribuição Uniform [0,1] possui várias descrições básicas. Quando tem essa distribuição,X

  1. A chance de em um conjunto mensurável A é apenas a medida (comprimento) de A [ 0 , 1 ] , escrita | A [ 0 , 1 ] | .XAA[0,1]|A[0,1]|

  2. A partir disso, é imediato que a função de distribuição cumulativa (CDF) seja

    FX(x)=Pr(Xx)=|(,x][0,1]|=|[0,min(x,1)]|={0x<0x0x11x>1.

    CDF

  3. A função densidade de probabilidade (PDF), que é a derivada do CDF, é para e de outro modo. (É indefinido em e )0 x 1 f X ( x ) = 0 0 1fX(x)=10x1fX(x)=001

    PDF


Intuição a partir de funções características (análise)

A função característica (CF) de qualquer variável aleatória é a expectativa de (onde é a unidade imaginária, ). Usando o PDF de uma distribuição uniforme, podemos calcularexp ( i t X ) i i 2 = - 1Xexp(itX)ii2=1

ϕX(t)=exp(itx)fX(x)dx=01exp(itx)dx=exp(itx)it|x=0x=1=exp(it)1it.

O CF é uma (versão da) transformada de Fourier do PDF, . Os teoremas mais básicos sobre transformadas de Fourier são:ϕ(t)=f^(t)

  • O CF de uma soma das variáveis ​​independentes é o produto de seus CFs.X+Y

  • Quando o PDF original é contínuo e é delimitado, pode ser recuperado do CF por uma versão intimamente relacionada da transformação de Fourier,X f ϕfXfϕ

f(x)=ϕˇ(x)=12πexp(ixt)ϕ(t)dt.
  • Quando é diferenciável, sua derivada pode ser calculada sob o sinal integral:f

    f(x)=ddx12πexp(ixt)ϕ(t)dt=i2πtexp(ixt)ϕ(t)dt.

    Para que isso seja bem definido, a última integral deve convergir absolutamente; isso é,

    |texp(ixt)ϕ(t)|dt=|t||ϕ(t)|dt

    deve convergir para um valor finito. Inversamente, quando converge, a derivada existe em toda parte em virtude dessas fórmulas de inversão.

Agora está claro exatamente o quão diferenciável é o PDF para uma soma de variáveis ​​uniformes: desde o primeiro marcador, o CF da soma das variáveis ​​iid é o CF de uma delas elevada ao poder , aqui igual a . O numerador é delimitado (consiste em ondas senoidais) enquanto o denominador é . Podemos multiplicar esse integrando por e ele ainda convergirá absolutamente quando e convergirá condicionalmente quando . Assim, a aplicação repetida do terceiro marcador mostra que o PDF para a soma de variáveis ​​uniformes será continuamenten th ( exp ( i t ) - 1 ) n / ( i t ) n O ( t n ) t s s < n - 1 s = n - 1 n n - 2 n - 1nnth(exp(it)1)n/(it)nO(tn)tss<n1s=n1nn2vezes diferenciáveis ​​e, na maioria dos lugares, será vezes diferenciável.n1

CF para n = 10

A curva sombreada em azul é um gráfico log-log do valor absoluto da parte real do CF da soma de iid de variáveis ​​uniformes. A linha vermelha tracejada é uma assíntota; sua inclinação é , mostrando que o PDF é vezes diferenciável. Para referência, a curva cinza representa a parte real do CF para uma função Gaussiana de formato semelhante (um PDF normal).- 10 10 - 2 = 8n=1010102=8


Intuição da Probabilidade

Seja e variáveis ​​aleatórias independentes, onde tem uma distribuição uniforme . Considere um intervalo estreito . Nós decompomos a chance de que na chance de que esteja suficientemente próximo desse intervalo vezes a chance de que tenha o tamanho certo para colocar nesse intervalo, considerando que está próximo o suficiente:YXX[0,1](t,t+dt]X+Y(t,t+dt]YXX+YY

fX+Y(t)dt=Pr(X+Y(t,t+dt])=Pr(X+Y(t,t+dt]|Y(t1,t+dt])Pr(Y(t1,t+dt])=Pr(X(tY,tY+dt]|Y(t1,t+dt])(FY(t+dt)FY(t1))=1dt(FY(t+dt)FY(t1)).

A igualdade final vem da expressão para o PDF de . Dividir os dois lados por e tomar o limite como dáXdtdt0

fX+Y(t)=FY(t)FY(t1).

Em outras palavras, adicionar uma variável uniforme a qualquer variável altera o pdf em um CDF diferenciado . Como o PDF é a derivada do CDF, isso implica que cada vez que adicionamos uma variável uniforme independente a , o PDF resultante é uma vez mais diferenciável do que antes.[0,1]XYfYFY(t)FY(t1)Y

Vamos aplicar esta visão, começando com uma variável uniforme . O PDF original não pode ser diferenciado em ou : é descontínuo lá. A PDF de não é diferenciável em , , ou , mas deve ser contínua naqueles pontos, uma vez que é a diferença de integrais da PDF de . Adicione outra variável uniforme independente : o PDF de é diferenciável em , , e mas não tem necessariamente o segundoY01Y+X012YX2Y+X+X2 0123derivados nesses pontos. E assim por diante.


Intuição da Geometria

A CDF em de uma soma de uniforme iid variates é igual ao volume da unidade hipercúbica encontra-se no interior da meia-espaço . A situação para variáveis ​​é mostrada aqui, com definido em , e depois em .tn[0,1]nx1+x2++xntn=3t1/23/25/2

Cubo 3D

À medida que progride de a , o hiperplano cruza os vértices em , . A cada vez, a forma da seção transversal muda: na figura, primeiro é um triângulo (um simplex), depois um hexágono, depois um triângulo novamente. Por que o PDF não possui curvas acentuadas com esses valores de ?t0nHn(t):x1+x2++xn=tt=0t=1,,t=n2t

Para entender isso, primeiro considere pequenos valores de . Aqui, o hiperplano corta um -simplex. Todas as dimensões do simplex são diretamente proporcionais a , de onde sua "área" é proporcional a . Alguma notação para isso será útil mais tarde. Seja a "função de etapa da unidade"tHn(t)n1n1ttn1θ

θ(x)={0x<01x0.

Se não fosse a presença dos outros cantos do hipercubo, esse dimensionamento continuaria indefinidamente. Um gráfico da área do -simplex seria semelhante à curva azul sólida abaixo: é zero em valores negativos e é igual ano positivo, convenientemente escrito. Ele tem uma "torção" da ordem na origem, no sentido de que todas as derivadas da ordem existem e são contínuas, mas que as derivadas esquerda e direita da ordem existem, mas não concordam na origem .n1tn1/(n1)!θ(t)tn1/(n1)!n2n3n2

(As outras curvas mostradas nesta figura são (Vermelho), (Ouro) e (Preto). Seus papéis no caso são discutidos mais adiante.)3θ(t1)(t1)2/2!3θ(t2)(t2)2/2!θ(t3)(t3)2/2!n=3

Gráfico de área simples

Para entender o que acontece quando cruza , vamos examinar em detalhes o caso , onde toda a geometria acontece em um plano. Podemos ver a unidade "cubo" (agora apenas um quadrado) como uma combinação linear de quadrantes , como mostrado aqui:t1n=2

Quadrantes

O primeiro quadrante aparece no painel inferior esquerdo, em cinza. O valor de é , determinando a linha diagonal mostrada nos cinco painéis. O CDF é igual à área amarela mostrada à direita. Esta área amarela é composta por:t1.5

  1. A área cinza triangular no painel inferior esquerdo,

  2. menos a área verde triangular no painel superior esquerdo,

  3. menos a área triangular vermelha no painel central baixo,

  4. além de qualquer área azul no painel central superior (mas não existe essa área, nem haverá até exceder ).t2

Cada uma dessas áreas é a área de um triângulo. A primeira escala como , as duas seguintes são zero para e, de outra forma, escala como , e a última é zero para e de outra forma escala como . Esta análise geométrica estabeleceu que o CDF é proporcional a = ; equivalentemente, o PDF é proporcional à soma das três funções , e2n=4tn=t2t<1(t1)n=(t1)2t<2(t2)nθ(t)t2θ(t1)(t1)2θ(t1)(t1)2+θ(t2)(t2)2θ(t)t22θ(t1)(t1)2+θ(t2)(t2)2θ(t)t2θ(t1)(t1)θ(t2)(t2)(cada um deles escalando linearmente quando ). O painel esquerdo desta figura mostra seus gráficos: evidentemente, todas são versões do gráfico original , mas (a) deslocadas por , e unidades para a direita e (b) redimensionadas por , e , respectivamente.n=2θ(t)t012121

Gráficos para n = 2

O painel direito mostra a soma desses gráficos (a curva preta sólida, normalizada para ter área de unidade: este é precisamente o PDF de aparência angular mostrado na pergunta original.

Agora podemos entender a natureza das "dobras" no PDF de qualquer soma das variáveis ​​uniformes do iid. Eles são exatamente iguais ao "kink" que ocorre em na função , possivelmente redimensionada e deslocada para os números inteiros correspondentes a onde o hiperplano cruza os vértices do hipercubo. Para , essa é uma mudança visível na direção: a derivada direita de em é enquanto sua derivada esquerda é . Para , este é um contínuo0θ(t)tn11,2,,nHn(t)n=2θ(t)t001n=3mudança de direção, mas uma mudança repentina (descontínua) na segunda derivada. Para o geral , haverá derivadas contínuas através da ordem mas uma descontinuidade na derivada .nn2n1st


Intuição da manipulação algébrica

A integração para calcular o CF, a forma da probabilidade condicional na análise probabilística e a síntese de um hipercubo como uma combinação linear de quadrantes sugerem retornar à distribuição uniforme original e reexpressá-la como uma combinação linear de coisas mais simples . De fato, seu PDF pode ser escrito

fX(x)=θ(x)θ(x1).

Vamos apresentar o operador de deslocamento : ele atua em qualquer função deslocando seu gráfico uma unidade para a direita:Δf

(Δf)(x)=f(x1).

Formalmente, então, para o PDF de uma variável uniforme podemos escreverX

fX=(1Δ)θ.

O PDF de uma soma de uniformes IID é a convolução de consigo mesma vezes. Isto decorre da definição de uma soma de variáveis ​​aleatórias: a convolução de duas funções e é a funçãonfXnfg

(fg)(x)=f(xy)g(y)dy.

É fácil verificar se a convolução comuta com . Basta alterar a variável de integração de para :Δyy+1

(f(Δg))=f(xy)(Δg)(y)dy=f(xy)g(y1)dy=f((x1)y)g(y)dy=(Δ(fg))(x).

Para o PDF da soma de iid uniformes, podemos agora proceder algebricamente para escrevern

f=fXn=((1Δ)θ)n=(1Δ)nθn

(onde "poder" denota convolução repetida, não multiplicação pontual!). Agora é uma integração direta e elementar, fornecendoθ nnθn

θn(x)=θ(x)xn1n1!.

O resto é álgebra, porque o Teorema Binomial se aplica (como em qualquer álgebra comutativa sobre os reais):

f=(1Δ)nθn=i=0n(1)i(ni)Δiθn.

Como apenas muda seu argumento por , isso exibe o PDF como uma combinação linear de versões deslocadas de , exatamente como deduzimos geometricamente:Δiifθ(x)xn1

f(x)=1(n1)!i=0n(1)i(ni)(xi)n1θ(xi).

(John Cook cita essa fórmula posteriormente em sua postagem no blog, usando a notação para .)(xi)+n1(xi)n1θ(xi)

Assim, como é uma função suave em qualquer lugar, qualquer comportamento singular do PDF ocorrerá apenas em locais onde é singular (obviamente apenas ) e nesses locais deslocados para a direita por . A natureza desse comportamento singular - o grau de suavidade - será, portanto, a mesma em todos os locais.xn1θ(x)01,2,,nn+1

Ilustrando esta é a figura para , mostrando (no painel esquerdo) os termos individuais na soma e (no painel direito) as somas parciais, culminando na própria soma (curva preta sólida):n=8

Gráfico para n = 8


Comentários finais

É interessante notar que esta última abordagem tem finalmente cedeu uma expressão compacto, prático para o cálculo do PDF de uma soma de variáveis uniformes IID. (Uma fórmula para o CDF é obtida da mesma forma.)n

O Teorema do Limite Central tem pouco a dizer aqui. Afinal, uma soma de variáveis binomiais iid converge para uma distribuição Normal, mas essa soma é sempre discreta: ela nem sequer possui um PDF! Não devemos esperar que qualquer intuição sobre "distorções" ou outras medidas de diferenciabilidade de um PDF venha do CLT.

whuber
fonte
12
(+1) Fantástico! Agora, quanto tempo você levou para juntar tudo isso ?!
cardeal
13
@ Cardinal Esta foi a última pergunta que li antes de perder energia na segunda-feira passada. Durante a semana que se seguiu, as longas noites escuras forneceram oportunidades para pensar sobre isso :-) e, para diversão, desenvolver várias respostas. Depois que a energia foi restaurada no fim de semana passado, era apenas uma questão de encontrar algum tempo para fazer as ilustrações e escrever tudo (o que demorou mais do que o esperado, confesso). Espero que talvez alguns desses tópicos possam servir como referência para futuras perguntas relacionadas sobre somas de variáveis ​​aleatórias.
whuber
11
Uau. Eu gostaria de poder "favorito" esta resposta .
Rhubbarb
2
whuber, isso é absolutamente incrível. Eu nunca percebi o quão profunda uma pergunta tão simples poderia ser. Vai demorar um pouco para responder sua resposta, mas por enquanto, muito obrigado!
Tetragrammaton
6
Eu vou violar a política SE sobre os comentários, dizendo que nós (todos os crossvalidate.com) deve subornar a companhia de energia para cortar a energia mais frequentemente :)
mpiktas
1

Você poderia argumentar que a função densidade de probabilidade de uma variável aleatória uniforme é finita,

portanto, sua função integral de densidade cumulativa de uma variável aleatória uniforme é contínua,

então a função densidade de probabilidade da soma de duas variáveis ​​aleatórias uniformes é contínua,

portanto, sua função integral de densidade cumulativa da soma de duas variáveis ​​aleatórias uniformes é suave (continuamente diferenciável),

portanto, a função densidade de probabilidade da soma de três variáveis ​​aleatórias uniformes é suave.

Henry
fonte
1

Acho que a coisa mais surpreendente é que você obtém o pico agudo para . n=2

O Teorema do Limite Central diz que, para tamanhos de amostra suficientemente grandes, a distribuição da média (e a soma são apenas os tempos médios , uma constante fixa para cada gráfico) será aproximadamente normal. Acontece que a distribuição uniforme é realmente bem comportada em relação ao CLT (simétrico, sem caudas pesadas (bem, sem muitas caudas), sem possibilidade de discrepâncias), portanto, para o uniforme, o tamanho da amostra precisava ser "grande o suficiente" "não é muito grande (cerca de 5 ou 6 para uma boa aproximação), você já está vendo a aproximação OK em .nn=3

Greg Snow
fonte