Suponha que você defina:
onde é o inverso do CDF da distribuição normal padrão .
Minha pergunta é: Existe uma distribuição simples que segue ou que pode se aproximar de ? Y ct p ct = 1 ; β = 1 X YEstou perguntando, porque tenho uma forte suspeita, com base nos resultados da simulação (mostrada abaixo), de que converge para uma distribuição normal quando e são altos, mas não sei por que matematicamente. (É claro que quando , seria uniforme e seria o padrão normal, mas por que isso seria verdadeiro para valores mais altos?).
Se isso convergir para um normal, quais seriam os parâmetros desse normal em termos de e ? (Espero que a média seja pois essa é a transformação do modo, mas não sei o desvio padrão).
(Dito de outra forma, isso poderia ser perguntado " converge para uma distribuição beta, para alguma direção de e "? Não tenho certeza se é mais fácil responder).
Resultados simulados
Aqui, mostro por que tenho a suspeita de que o resultado é normal (já que não posso fazer backup com matemática). A simulação de pode ser feita em R com e . Por exemplo, escolhendo os parâmetros altos e :qnorm
rnorm
hist(qnorm(rbeta(5000, 3000, 7000)))
Isso parece normal, e qqnorm
o teste de Shapiro-Wilk (em que normalidade é a hipótese nula) também sugere:
qqnorm(qnorm(rbeta(5000, 3000, 7000)))
shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#>
#> Shapiro-Wilk normality test
#>
#> data: qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838
Para explorar um pouco mais a normalidade, realizo 2.000 simulações, simulando 5.000 valores de cada vez , em seguida, realizando o teste para compará-lo ao normal. (Escolhi valores de 5K porque esse é o máximo que pode suportar e maximiza o poder de detectar desvios da norma).shapiro.test
Se a distribuição realmente fosse normal, esperaríamos que os valores de p fossem uniformes (já que o nulo é verdadeiro). Eles são realmente quase uniformes, sugerindo que a distribuição está muito próxima do normal:
hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))
Algumas experiências mostram que quanto mais altos são e , mais perto a distribuição fica normal (por exemplo, está muito longe do normal, mas tente e parece estar em algum lugar no meio).βrbeta(5000, 3, 7)
hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))
fonte
hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value))
, tente , entãohist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value))
. Em outras palavras, quando é normal porque o beta é uniforme, quandoα e β são altos é porque o beta é aproximadamente normal - mas por que funciona quando são iguais e intermediários, onde não é normal nem uniforme?Respostas:
Sinopse
Você redescobriu parte da construção descrita no Teorema do Limite Central para Medianas da Amostra , que ilustra uma análise da mediana de uma amostra. (A análise obviamente se aplica, mutatis mutandis , a qualquer quantil, não apenas à mediana). Portanto, não é surpresa que, para grandes parâmetros Beta (correspondendo a grandes amostras), uma distribuição Normal ocorra sob a transformação descrita na pergunta. O que interessa é o quão perto de Normal é a distribuição, mesmo para pequenos parâmetros Beta. Isso merece uma explicação.
Vou esboçar uma análise abaixo. Para manter este post em um comprimento razoável, ele envolve muitas sugestões sugestivas: eu pretendo apenas apontar as idéias principais. Permitam-me, portanto, resumir os resultados aqui:
Quando está próximo de β , tudo é simétrico. Isso faz com que a distribuição transformada já pareça normal.α β
As funções da forma parecem razoavelmente normais em primeiro lugar, mesmo para pequenos valores de α e β (desde que excedam 1 e sua razão não seja muito alta). próximo a 0 ou 1 ).Φα−1(x)(1−Φ(x))β−1 α β 1 0 1
A normalidade aparente da distribuição transformada se deve ao fato de que sua densidade consiste em uma densidade normal multiplicada por uma função em (2).
À medida que e β aumentam, a saída da Normalidade pode ser medida nos termos restantes de uma série de Taylor para a densidade do log. O termo da ordem n diminui proporcionalmente às potências ( n - 2 ) / 2 de α e β . Isso implica que, eventualmente, para α e β suficientemente grandes , todos os termos de potência n = 3 ou mais se tornaram relativamente pequenos, deixando apenas um quadrático: que é precisamente a densidade logarítmica de uma distribuição Normal.α β n (n−2)/2 α β α β n=3
Coletivamente, esses comportamentos explicam bem por que, mesmo para pequenos e β, os quantis não extremos de uma amostra normal de iid parecem aproximadamente normais.α β
Análise
Porque ele pode ser útil para generalizar, vamos ser qualquer função de distribuição, embora tenhamos em mente F = Φ .F F=Φ
A função de densidade de uma variável Beta ( α , β ) é, por definição, proporcional ag(y) (α,β)
Sendo a transformação integral de probabilidade de x e escrevendo f para a derivada de F , é imediato que x tenha uma densidade proporcional ay=F(x) x f F x
Como essa é uma transformação monotônica de uma distribuição fortemente unimodal (a Beta), a menos que seja bastante estranho, a distribuição transformada também será unimodal. Para estudar o quão perto de Normal pode ser, vamos examinar o logaritmo de sua densidade,F
onde é uma constante irrelevante de normalização.C
Expanda os componentes do na série Taylor para ordenar três em torno de um valor x 0 (que estará próximo a um modo). Por exemplo, podemos escrever a expansão do log F comologG(x;α,β) x0 logF
por algum com | h | ≤ | x - x 0 | . Use uma notação semelhante para log ( 1 - F ) e log f .h |h|≤|x−x0| log(1−F) logf
Termos lineares
O termo linear em torna-se assim(1)
Quando é um modo de G (x0 , esta expressão é zero. Observe que, como os coeficientes são funções contínuas de x 0 , como α e β são variados, o modo x 0 também varia continuamente. Além disso, uma vez que α e β sejam suficientemente grandes, otermo c f 1 se torna relativamente inconseqüente. Se pretendemos estudar o limite como α → ∞ e β → ∞ para o qual α : β permanece em proporção constante γG(;α,β) x0 α β x0 α β cf1 α→∞ β→∞ α:β γ , portanto, podemos escolher de uma vez por todas um ponto base para o qualx0
Um bom caso é onde , onde α = β por toda parte, e F é simétrico em torno de 0 . Nesse caso, é óbvio x 0 = F ( 0 ) = 1 / 2 .γ=1 α=β F 0 x0=F(0)=1/2
Conseguimos um método pelo qual (a) no limite, o termo de primeira ordem na série Taylor desaparece e (b) no caso especial que acabamos de descrever, o termo de primeira ordem é sempre zero.
Termos quadráticos
Estes são a soma
Comparando-se a uma distribuição normal, cujo termo quadrático é , podemos estimar que - 1 / ( 2 g 2 ( α , β ) ) é aproximadamente a variância de L . Vamos padronizar G redimensionando x por sua raiz quadrada. nós realmente não precisamos dos detalhes; basta entender que esse reescalonamento vai multiplicar o coeficiente de ( x−(1/2)(x−x0)2/σ2 −1/(2g2(α,β)) G G x na expansão de Taylor por ( - 1 / ( 2 g 2 ( α , β ) ) ) n / 2 .(x−x0)n (−1/(2g2(α,β)))n/2.
Termo restante
Aqui está a piada: o termo de ordem na expansão de Taylor é, de acordo com nossa notação,n
Após a padronização, torna-se
Ambos o são combinação afim de α e β . Ao elevar o denominador à potência n / 2 , o comportamento líquido é da ordem - ( n - 2 ) / 2 em cada um de α e β . À medida que esses parâmetros aumentam, cada termo na expansão de Taylor após o segundo diminui para zero assintoticamente. Em particular, o termo restante de terceira ordem se torna arbitrariamente pequeno.gi α β n/2 −(n−2)/2 α β
O caso em que é normalF
O desaparecimento do termo restante é particularmente rápido quando é Normal normal, porque neste caso f ( x ) é puramente quadrático: não contribui em nada para os termos restantes. Consequentemente, o desvio de G da normalidade depende unicamente do desvio entre F α - 1 ( 1 - F ) β - 1 e a normalidade.F f(x) G Fα−1(1−F)β−1
Esse desvio é bastante pequeno, mesmo para pequenos e β . Para ilustrar, considere o caso α = β . G é simétrico, de onde o termo de ordem 3 desaparece completamente. O restante é da ordem 4 em x - x 0 = x .α β α=β G 4 x−x0=x
Aqui está um gráfico que mostra como o termo padronizado de quarta ordem muda com pequenos valores de :α>1
O valor começa em para α = β = 1 , porque a distribuição obviamente é Normal ( Φ - 1 aplicada a uma distribuição uniforme, que é Beta ( 1 , 1 ) , fornece uma distribuição normal padrão). Embora aumente rapidamente, ela atinge menos de 0,008 - o que é praticamente indistinguível de zero. Depois disso, o decaimento recíproco assintótico entra em ação, tornando a distribuição cada vez mais próxima do Normal à medida que α aumenta além de 2 .0 α=β=1 Φ−1 (1,1) 0.008 α 2
fonte
Convergência
Suponha que e deixe α → ∞ e tome qualquer pequeno ε > 0 . Então v a r ( X ) → 0 . Pela desigualdade de Chebyshev, temos P [ | X - 0,5 | > ε ] → 0 e P [ | Y | > ε ] → 0 . Isso significa que Y converge em probabilidade (α=β α→∞ ε>0 var(X)→0 P[|X−0.5|>ε]→0 P[|Y|>ε]→0 Y
não em distribuiçãona verdade, converge em distribuição - para singleton).Distribuição exata
FullSimplify
Aqui está a densidade em R para que você possa plotá-la em vez do histograma.
Modificação
fonte
fonte