Eu estive pensando sobre isso por um tempo; Acho um pouco estranho o quão abruptamente isso acontece. Basicamente, por que precisamos de apenas três uniformes para que o seja mais suave? E por que a suavização ocorre com tanta rapidez?
:
:
(imagens descaradamente roubadas do blog de John D. Cook: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ )
Por que não leva, digamos, quatro uniformes? Ou cinco? Ou...?
normal-distribution
mathematical-statistics
uniform
central-limit-theorem
tetragrammaton
fonte
fonte
Respostas:
Podemos adotar várias abordagens para isso, qualquer uma das quais pode parecer intuitiva para algumas pessoas e menos intuitiva para outras. Para acomodar essa variação, esta resposta examina várias dessas abordagens, cobrindo as principais divisões do pensamento matemático - análise (o infinito e o infinitesimal), geometria / topologia (relações espaciais) e álgebra (padrões formais de manipulação simbólica) - como bem como a própria probabilidade. Ele culmina com uma observação que unifica todas as quatro abordagens, demonstra que há uma pergunta genuína a ser respondida aqui e mostra exatamente qual é o problema. Cada abordagem fornece, à sua maneira, uma visão mais profunda da natureza das formas das funções de distribuição de probabilidade de somas de variáveis uniformes independentes.
fundo
A distribuição Uniform[0,1] possui várias descrições básicas. Quando tem essa distribuição,X
A chance de em um conjunto mensurável A é apenas a medida (comprimento) de A ∩ [ 0 , 1 ] , escrita | A ∩ [ 0 , 1 ] | .X A A∩[0,1] |A∩[0,1]|
A partir disso, é imediato que a função de distribuição cumulativa (CDF) seja
A função densidade de probabilidade (PDF), que é a derivada do CDF, é para e de outro modo. (É indefinido em e )0 ≤ x ≤ 1 f X ( x ) = 0 0 1fX(x)=1 0≤x≤1 fX(x)=0 0 1
Intuição a partir de funções características (análise)
A função característica (CF) de qualquer variável aleatória é a expectativa de (onde é a unidade imaginária, ). Usando o PDF de uma distribuição uniforme, podemos calcularexp ( i t X ) i i 2 = - 1X exp(itX) i i2=−1
O CF é uma (versão da) transformada de Fourier do PDF, . Os teoremas mais básicos sobre transformadas de Fourier são:ϕ(t)=f^(t)
O CF de uma soma das variáveis independentes é o produto de seus CFs.X+Y
Quando o PDF original é contínuo e é delimitado, pode ser recuperado do CF por uma versão intimamente relacionada da transformação de Fourier,X f ϕf X f ϕ
Quando é diferenciável, sua derivada pode ser calculada sob o sinal integral:f
Para que isso seja bem definido, a última integral deve convergir absolutamente; isso é,
deve convergir para um valor finito. Inversamente, quando converge, a derivada existe em toda parte em virtude dessas fórmulas de inversão.
Agora está claro exatamente o quão diferenciável é o PDF para uma soma de variáveis uniformes: desde o primeiro marcador, o CF da soma das variáveis iid é o CF de uma delas elevada ao poder , aqui igual a . O numerador é delimitado (consiste em ondas senoidais) enquanto o denominador é . Podemos multiplicar esse integrando por e ele ainda convergirá absolutamente quando e convergirá condicionalmente quando . Assim, a aplicação repetida do terceiro marcador mostra que o PDF para a soma de variáveis uniformes será continuamenten th ( exp ( i t ) - 1 ) n / ( i t ) n O ( t n ) t s s < n - 1 s = n - 1 n n - 2 n - 1n nth (exp(it)−1)n/(it)n O(tn) ts s<n−1 s=n−1 n n−2 vezes diferenciáveis e, na maioria dos lugares, será vezes diferenciável.n−1
A curva sombreada em azul é um gráfico log-log do valor absoluto da parte real do CF da soma de iid de variáveis uniformes. A linha vermelha tracejada é uma assíntota; sua inclinação é , mostrando que o PDF é vezes diferenciável. Para referência, a curva cinza representa a parte real do CF para uma função Gaussiana de formato semelhante (um PDF normal).- 10 10 - 2 = 8n=10 −10 10−2=8
Intuição da Probabilidade
Seja e variáveis aleatórias independentes, onde tem uma distribuição uniforme . Considere um intervalo estreito . Nós decompomos a chance de que na chance de que esteja suficientemente próximo desse intervalo vezes a chance de que tenha o tamanho certo para colocar nesse intervalo, considerando que está próximo o suficiente:Y X X [0,1] (t,t+dt] X+Y∈(t,t+dt] Y X X+Y Y
A igualdade final vem da expressão para o PDF de . Dividir os dois lados por e tomar o limite como dáX dt dt→0
Em outras palavras, adicionar uma variável uniforme a qualquer variável altera o pdf em um CDF diferenciado . Como o PDF é a derivada do CDF, isso implica que cada vez que adicionamos uma variável uniforme independente a , o PDF resultante é uma vez mais diferenciável do que antes.[0,1] X Y fY FY(t)−FY(t−1) Y
Vamos aplicar esta visão, começando com uma variável uniforme . O PDF original não pode ser diferenciado em ou : é descontínuo lá. A PDF de não é diferenciável em , , ou , mas deve ser contínua naqueles pontos, uma vez que é a diferença de integrais da PDF de . Adicione outra variável uniforme independente : o PDF de é diferenciável em , , e mas não tem necessariamente o segundoY 0 1 Y+X 0 1 2 Y X2 Y+X+X2 0 1 2 3 derivados nesses pontos. E assim por diante.
Intuição da Geometria
A CDF em de uma soma de uniforme iid variates é igual ao volume da unidade hipercúbica encontra-se no interior da meia-espaço . A situação para variáveis é mostrada aqui, com definido em , e depois em .t n [0,1]n x1+x2+⋯+xn≤t n=3 t 1/2 3/2 5/2
À medida que progride de a , o hiperplano cruza os vértices em , . A cada vez, a forma da seção transversal muda: na figura, primeiro é um triângulo (um simplex), depois um hexágono, depois um triângulo novamente. Por que o PDF não possui curvas acentuadas com esses valores de ?t 0 n Hn(t):x1+x2+⋯+xn=t t=0 t=1,…,t=n 2 t
Para entender isso, primeiro considere pequenos valores de . Aqui, o hiperplano corta um -simplex. Todas as dimensões do simplex são diretamente proporcionais a , de onde sua "área" é proporcional a . Alguma notação para isso será útil mais tarde. Seja a "função de etapa da unidade"t Hn(t) n−1 n−1 t tn−1 θ
Se não fosse a presença dos outros cantos do hipercubo, esse dimensionamento continuaria indefinidamente. Um gráfico da área do -simplex seria semelhante à curva azul sólida abaixo: é zero em valores negativos e é igual ano positivo, convenientemente escrito. Ele tem uma "torção" da ordem na origem, no sentido de que todas as derivadas da ordem existem e são contínuas, mas que as derivadas esquerda e direita da ordem existem, mas não concordam na origem .n−1 tn−1/(n−1)! θ(t)tn−1/(n−1)! n−2 n−3 n−2
(As outras curvas mostradas nesta figura são (Vermelho), (Ouro) e (Preto). Seus papéis no caso são discutidos mais adiante.)−3θ(t−1)(t−1)2/2! 3θ(t−2)(t−2)2/2! −θ(t−3)(t−3)2/2! n=3
Para entender o que acontece quando cruza , vamos examinar em detalhes o caso , onde toda a geometria acontece em um plano. Podemos ver a unidade "cubo" (agora apenas um quadrado) como uma combinação linear de quadrantes , como mostrado aqui:t 1 n=2
O primeiro quadrante aparece no painel inferior esquerdo, em cinza. O valor de é , determinando a linha diagonal mostrada nos cinco painéis. O CDF é igual à área amarela mostrada à direita. Esta área amarela é composta por:t 1.5
A área cinza triangular no painel inferior esquerdo,
menos a área verde triangular no painel superior esquerdo,
menos a área triangular vermelha no painel central baixo,
além de qualquer área azul no painel central superior (mas não existe essa área, nem haverá até exceder ).t 2
Cada uma dessas áreas é a área de um triângulo. A primeira escala como , as duas seguintes são zero para e, de outra forma, escala como , e a última é zero para e de outra forma escala como . Esta análise geométrica estabeleceu que o CDF é proporcional a = ; equivalentemente, o PDF é proporcional à soma das três funções , e2n=4 tn=t2 t<1 (t−1)n=(t−1)2 t<2 (t−2)n θ(t)t2−θ(t−1)(t−1)2−θ(t−1)(t−1)2+θ(t−2)(t−2)2 θ(t)t2−2θ(t−1)(t−1)2+θ(t−2)(t−2)2 θ(t)t −2θ(t−1)(t−1) θ(t−2)(t−2) (cada um deles escalando linearmente quando ). O painel esquerdo desta figura mostra seus gráficos: evidentemente, todas são versões do gráfico original , mas (a) deslocadas por , e unidades para a direita e (b) redimensionadas por , e , respectivamente.n=2 θ(t)t 0 1 2 1 −2 1
O painel direito mostra a soma desses gráficos (a curva preta sólida, normalizada para ter área de unidade: este é precisamente o PDF de aparência angular mostrado na pergunta original.
Agora podemos entender a natureza das "dobras" no PDF de qualquer soma das variáveis uniformes do iid. Eles são exatamente iguais ao "kink" que ocorre em na função , possivelmente redimensionada e deslocada para os números inteiros correspondentes a onde o hiperplano cruza os vértices do hipercubo. Para , essa é uma mudança visível na direção: a derivada direita de em é enquanto sua derivada esquerda é . Para , este é um contínuo0 θ(t)tn−1 1,2,…,n Hn(t) n=2 θ(t)t 0 0 1 n=3 mudança de direção, mas uma mudança repentina (descontínua) na segunda derivada. Para o geral , haverá derivadas contínuas através da ordem mas uma descontinuidade na derivada .n n−2 n−1st
Intuição da manipulação algébrica
A integração para calcular o CF, a forma da probabilidade condicional na análise probabilística e a síntese de um hipercubo como uma combinação linear de quadrantes sugerem retornar à distribuição uniforme original e reexpressá-la como uma combinação linear de coisas mais simples . De fato, seu PDF pode ser escrito
Vamos apresentar o operador de deslocamento : ele atua em qualquer função deslocando seu gráfico uma unidade para a direita:Δ f
Formalmente, então, para o PDF de uma variável uniforme podemos escreverX
O PDF de uma soma de uniformes IID é a convolução de consigo mesma vezes. Isto decorre da definição de uma soma de variáveis aleatórias: a convolução de duas funções e é a funçãon fX n f g
É fácil verificar se a convolução comuta com . Basta alterar a variável de integração de para :Δ y y+1
Para o PDF da soma de iid uniformes, podemos agora proceder algebricamente para escrevern
(onde "poder" denota convolução repetida, não multiplicação pontual!). Agora é uma integração direta e elementar, fornecendoθ ⋆ n⋆n θ⋆n
O resto é álgebra, porque o Teorema Binomial se aplica (como em qualquer álgebra comutativa sobre os reais):
Como apenas muda seu argumento por , isso exibe o PDF como uma combinação linear de versões deslocadas de , exatamente como deduzimos geometricamente:Δi i f θ(x)xn−1
(John Cook cita essa fórmula posteriormente em sua postagem no blog, usando a notação para .)(x−i)n−1+ (x−i)n−1θ(x−i)
Assim, como é uma função suave em qualquer lugar, qualquer comportamento singular do PDF ocorrerá apenas em locais onde é singular (obviamente apenas ) e nesses locais deslocados para a direita por . A natureza desse comportamento singular - o grau de suavidade - será, portanto, a mesma em todos os locais.xn−1 θ(x) 0 1,2,…,n n+1
Ilustrando esta é a figura para , mostrando (no painel esquerdo) os termos individuais na soma e (no painel direito) as somas parciais, culminando na própria soma (curva preta sólida):n=8
Comentários finais
É interessante notar que esta última abordagem tem finalmente cedeu uma expressão compacto, prático para o cálculo do PDF de uma soma de variáveis uniformes IID. (Uma fórmula para o CDF é obtida da mesma forma.)n
O Teorema do Limite Central tem pouco a dizer aqui. Afinal, uma soma de variáveis binomiais iid converge para uma distribuição Normal, mas essa soma é sempre discreta: ela nem sequer possui um PDF! Não devemos esperar que qualquer intuição sobre "distorções" ou outras medidas de diferenciabilidade de um PDF venha do CLT.
fonte
Você poderia argumentar que a função densidade de probabilidade de uma variável aleatória uniforme é finita,
portanto, sua função integral de densidade cumulativa de uma variável aleatória uniforme é contínua,
então a função densidade de probabilidade da soma de duas variáveis aleatórias uniformes é contínua,
portanto, sua função integral de densidade cumulativa da soma de duas variáveis aleatórias uniformes é suave (continuamente diferenciável),
portanto, a função densidade de probabilidade da soma de três variáveis aleatórias uniformes é suave.
fonte
Acho que a coisa mais surpreendente é que você obtém o pico agudo para .n=2
O Teorema do Limite Central diz que, para tamanhos de amostra suficientemente grandes, a distribuição da média (e a soma são apenas os tempos médios , uma constante fixa para cada gráfico) será aproximadamente normal. Acontece que a distribuição uniforme é realmente bem comportada em relação ao CLT (simétrico, sem caudas pesadas (bem, sem muitas caudas), sem possibilidade de discrepâncias), portanto, para o uniforme, o tamanho da amostra precisava ser "grande o suficiente" "não é muito grande (cerca de 5 ou 6 para uma boa aproximação), você já está vendo a aproximação OK em .n n=3
fonte