Que distribuição segue o CDF normal inverso de uma variável aleatória beta?

14

Suponha que você defina:

XBeta(α,β)

YΦ1(X)

onde é o inverso do CDF da distribuição normal padrão .Φ1

Minha pergunta é: Existe uma distribuição simples que segue ou que pode se aproximar de ? YY Y ct p ct = 1 ; β = 1 X YEstou perguntando, porque tenho uma forte suspeita, com base nos resultados da simulação (mostrada abaixo), de que converge para uma distribuição normal quando e são altos, mas não sei por que matematicamente. (É claro que quando , seria uniforme e seria o padrão normal, mas por que isso seria verdadeiro para valores mais altos?).Yαβα=1;β=1XY

Se isso convergir para um normal, quais seriam os parâmetros desse normal em termos de e ? (Espero que a média seja pois essa é a transformação do modo, mas não sei o desvio padrão).αβΦ1(αα+β)

(Dito de outra forma, isso poderia ser perguntado " converge para uma distribuição beta, para alguma direção de e "? Não tenho certeza se é mais fácil responder).Φ(Norm(μ,σ))μσ

Resultados simulados

Aqui, mostro por que tenho a suspeita de que o resultado é normal (já que não posso fazer backup com matemática). A simulação de pode ser feita em R com e . Por exemplo, escolhendo os parâmetros altos e :Yqnormrnormα=3000β=7000

hist(qnorm(rbeta(5000, 3000, 7000)))

Isso parece normal, e qqnormo teste de Shapiro-Wilk (em que normalidade é a hipótese nula) também sugere:

qqnorm(qnorm(rbeta(5000, 3000, 7000)))

shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#> 
#>  Shapiro-Wilk normality test
#> 
#> data:  qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838

Para explorar um pouco mais a normalidade, realizo 2.000 simulações, simulando 5.000 valores de cada vez , em seguida, realizando o teste para compará-lo ao normal. (Escolhi valores de 5K porque esse é o máximo que pode suportar e maximiza o poder de detectar desvios da norma).Yshapiro.test

Se a distribuição realmente fosse normal, esperaríamos que os valores de p fossem uniformes (já que o nulo é verdadeiro). Eles são realmente quase uniformes, sugerindo que a distribuição está muito próxima do normal:

hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))

Algumas experiências mostram que quanto mais altos são e , mais perto a distribuição fica normal (por exemplo, está muito longe do normal, mas tente e parece estar em algum lugar no meio).βαβrbeta(5000, 3, 7)hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))

David Robinson
fonte
2
Nada de interessante acontece aqui. À medida que e aumentam, vamos supor que eles permaneçam na mesma proporção, ou pelo menos que permaneça longe de e . Em seguida, a distribuição Beta torna-se Normal e concentrada em um intervalo arbitrariamente estreito. , sendo diferenciável, torna-se essencialmente linear, de onde você está apenas olhando para uma transformação linear de uma variável quase normal. Este resultado não tem nada a ver com e não adiciona informações sobre distribuições Beta. αα / ( α + β ) 0 1 ( α , β ) Φ - 1 Φ - 1βα/(α+β)01(α,β)Φ1Φ1
whuber
1
@whuber Isso faz sentido para e (eu tive algumas simulações que me fizeram pensar que isso era mais próximo do normal do que o equivalente normal aproximado ao beta, mas, ao executar novamente, acho que houve um erro na época). Quaisquer pensamentos sobre ; ? Dist está muito longe do normal, mas o qnorm está bem próximo. β α = 2 β = 2αβα=2β=2
David Robinson
1
@ whuber Por exemplo hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value)), tente , então hist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value)). Em outras palavras, quando é normal porque o beta é uniforme, quandoα e β são altos é porque o beta é aproximadamente normal - mas por que funciona quando são iguais e intermediários, onde não é normal nem uniforme? α=β=1αβ
David Robinson
5
Isso é definitivamente mais interessante! Você está certo de que Beta não está muito próximo de Normal, mas que a transformação é aproximadamente Normal, mesmo para pequenos parâmetros de Beta. Os desvios da normalidade tornam-se aparentes nas caudas, em torno de ou superior, mas são notavelmente pequenos em todo o corpo da distribuição. Em última análise, isso é rastreável ao comportamento da lei de poder das caudas Beta. Z=±3
whuber

Respostas:

7

Sinopse

Você redescobriu parte da construção descrita no Teorema do Limite Central para Medianas da Amostra , que ilustra uma análise da mediana de uma amostra. (A análise obviamente se aplica, mutatis mutandis , a qualquer quantil, não apenas à mediana). Portanto, não é surpresa que, para grandes parâmetros Beta (correspondendo a grandes amostras), uma distribuição Normal ocorra sob a transformação descrita na pergunta. O que interessa é o quão perto de Normal é a distribuição, mesmo para pequenos parâmetros Beta. Isso merece uma explicação.

Vou esboçar uma análise abaixo. Para manter este post em um comprimento razoável, ele envolve muitas sugestões sugestivas: eu pretendo apenas apontar as idéias principais. Permitam-me, portanto, resumir os resultados aqui:

  1. Quando está próximo de β , tudo é simétrico. Isso faz com que a distribuição transformada já pareça normal.αβ

  2. As funções da forma parecem razoavelmente normais em primeiro lugar, mesmo para pequenos valores de α e β (desde que excedam 1 e sua razão não seja muito alta). próximo a 0 ou 1 ).Φα1(x)(1Φ(x))β1αβ101

  3. A normalidade aparente da distribuição transformada se deve ao fato de que sua densidade consiste em uma densidade normal multiplicada por uma função em (2).

  4. À medida que e β aumentam, a saída da Normalidade pode ser medida nos termos restantes de uma série de Taylor para a densidade do log. O termo da ordem n diminui proporcionalmente às potências ( n - 2 ) / 2 de α e β . Isso implica que, eventualmente, para α e β suficientemente grandes , todos os termos de potência n = 3 ou mais se tornaram relativamente pequenos, deixando apenas um quadrático: que é precisamente a densidade logarítmica de uma distribuição Normal.αβn(n2)/2αβαβn=3

Coletivamente, esses comportamentos explicam bem por que, mesmo para pequenos e β, os quantis não extremos de uma amostra normal de iid parecem aproximadamente normais.αβ


Análise

Porque ele pode ser útil para generalizar, vamos ser qualquer função de distribuição, embora tenhamos em mente F = Φ .FF=Φ

A função de densidade de uma variável Beta ( α , β ) é, por definição, proporcional ag(y)(α,β)

yα1(1y)β1dy.

Sendo a transformação integral de probabilidade de x e escrevendo f para a derivada de F , é imediato que x tenha uma densidade proporcional ay=F(x)xfFx

G(x;α,β)=F(x)α1(1F(x))β1f(x)dx.

Como essa é uma transformação monotônica de uma distribuição fortemente unimodal (a Beta), a menos que seja bastante estranho, a distribuição transformada também será unimodal. Para estudar o quão perto de Normal pode ser, vamos examinar o logaritmo de sua densidade,F

(1)logG(x;α,β)=(α1)logF(x)+(β1)log(1F(x))+logf(x)+C

onde é uma constante irrelevante de normalização.C

Expanda os componentes do na série Taylor para ordenar três em torno de um valor x 0 (que estará próximo a um modo). Por exemplo, podemos escrever a expansão do log F comologG(x;α,β)x0logF

logF(x)=c0F+c1F(xx0)+c2F(xx0)2+c3Fh3

por algum com | h | | x - x 0 | . Use uma notação semelhante para log ( 1 - F ) e log f . h|h||xx0|log(1F)logf

Termos lineares

O termo linear em torna-se assim(1)

g1(α,β)=(α1)c1F+(β1)c11F+c1f.

Quando é um modo de G (x0 , esta expressão é zero. Observe que, como os coeficientes são funções contínuas de x 0 , como α e β são variados, o modo x 0 também varia continuamente. Além disso, uma vez que α e β sejam suficientemente grandes, otermo c f 1 se torna relativamente inconseqüente. Se pretendemos estudar o limite como α e β para o qual α : β permanece em proporção constante γG(;α,β)x0αβx0αβc1fαβ α:βγ, portanto, podemos escolher de uma vez por todas um ponto base para o qualx0

γc1F+c11F=0.

Um bom caso é onde , onde α = β por toda parte, e F é simétrico em torno de 0 . Nesse caso, é óbvio x 0 = F ( 0 ) = 1 / 2 .γ=1α=βF0x0=F(0)=1/2

Conseguimos um método pelo qual (a) no limite, o termo de primeira ordem na série Taylor desaparece e (b) no caso especial que acabamos de descrever, o termo de primeira ordem é sempre zero.

Termos quadráticos

Estes são a soma

g2(α,β)=(α1)c2F+(β1)c21F+c2f.

Comparando-se a uma distribuição normal, cujo termo quadrático é , podemos estimar que - 1 / ( 2 g 2 ( α , β ) ) é aproximadamente a variância de L . Vamos padronizar G redimensionando x por sua raiz quadrada. nós realmente não precisamos dos detalhes; basta entender que esse reescalonamento vai multiplicar o coeficiente de ( x(1/2)(xx0)2/σ21/(2g2(α,β))GGx na expansão de Taylor por ( - 1 / ( 2 g 2 ( α , β ) ) ) n / 2 .(xx0)n(1/(2g2(α,β)))n/2.

Termo restante

Aqui está a piada: o termo de ordem na expansão de Taylor é, de acordo com nossa notação,n

gn(α,β)=(α1)cnF+(β1)cn1F+cnf.

Após a padronização, torna-se

gn(α,β)=gn(α,β)(2g2(α,β))n/2).

Ambos o são combinação afim de α e β . Ao elevar o denominador à potência n / 2 , o comportamento líquido é da ordem - ( n - 2 ) / 2 em cada um de α e β . À medida que esses parâmetros aumentam, cada termo na expansão de Taylor após o segundo diminui para zero assintoticamente. Em particular, o termo restante de terceira ordem se torna arbitrariamente pequeno.giαβn/2(n2)/2αβ

O caso em que é normalF

O desaparecimento do termo restante é particularmente rápido quando é Normal normal, porque neste caso f ( x ) é puramente quadrático: não contribui em nada para os termos restantes. Consequentemente, o desvio de G da normalidade depende unicamente do desvio entre F α - 1 ( 1 - F ) β - 1 e a normalidade.Ff(x)GFα1(1F)β1

Esse desvio é bastante pequeno, mesmo para pequenos e β . Para ilustrar, considere o caso α = β . G é simétrico, de onde o termo de ordem 3 desaparece completamente. O restante é da ordem 4 em x - x 0 = x . αβα=βG4xx0=x

Aqui está um gráfico que mostra como o termo padronizado de quarta ordem muda com pequenos valores de :α>1

Figura

O valor começa em para α = β = 1 , porque a distribuição obviamente é Normal ( Φ - 1 aplicada a uma distribuição uniforme, que é Beta ( 1 , 1 ) , fornece uma distribuição normal padrão). Embora aumente rapidamente, ela atinge menos de 0,008 - o que é praticamente indistinguível de zero. Depois disso, o decaimento recíproco assintótico entra em ação, tornando a distribuição cada vez mais próxima do Normal à medida que α aumenta além de 2 .0α=β=1Φ1(1,1)0.008α2

whuber
fonte
2

Convergência

Suponha que e deixe α e tome qualquer pequeno ε > 0 . Então v a r ( X ) 0 . Pela desigualdade de Chebyshev, temos P [ | X - 0,5 | > ε ] 0 e P [ | Y | > ε ] 0 . Isso significa que Y converge em probabilidade ( não em distribuiçãoα=βαε>0var(X)0P[|X0.5|>ε]0P[|Y|>ε]0Y na verdade, converge em distribuição - para singleton).

Distribuição exata

fXY

fY(y)=fX(Φ(y))ϕ(y).
ΦFullSimplify

Aqui está a densidade em R para que você possa plotá-la em vez do histograma.

f_y <- function(x, alpha, beta) {
  dbeta(pnorm(x), alpha, beta) * dnorm(x)
}

Modificação

Z=Φ1(αX)
α=βvar(αX)1/8
Jan Kislinger
fonte
1

kNk2XBeta(k,k)Y=Φ1(X)

n=2k1nU1,,UnU(1)U(n)

U(k)Beta(k,n+1k)

U(k)Beta(k,k)

nBeta(k,k)

Zi=Φ1(Ui)ZiZiZ(1)Z(n)Φ1

Φ1(U(k))=Z(k)

Yn

kkk=2

ab

ar
fonte