Distribuição amostral da média de um Beta

8

Digamos que temos . Qual é a distribuição amostral de sua amostra?XBeta(α,β)

Em outras palavras, que distribuição a amostra significa X¯ de uma versão beta segue?

Josh
fonte
11
Uau - pergunta difícil. Pode ser difícil caracterizar todos os valores de alfa e beta, dadas as formas estranhas que ocorrem para algumas opções de parâmetro, mas quando ambos são maiores que 1, parece que tenderá assintoticamente a gaussiano por CLT, mas não posso diga com certeza.
T3am5hark
4
A distribuição assintótica de uma média amostral de uma amostra aleatória será governada pelo CLT sempre que existir uma variação, o que não exige que α,β>1 .
Christoph Hanck 25/10

Respostas:

2

Nota: consulte também para a mesma pergunta /math/85535/sum-of-niid-beta-distributed-variables

Para o caso de uma distribuição uniforme, , a distribuição da soma de um número de variáveis ​​independentes (e a média está relacionada) foi descrita como a distribuição de Irwin-Hall .Beta(1,1)

Se

Xn=i=1nYi with UiBeta(1,1)

então você tem uma spline de graun1

fX(x;n)=1(n1)!j=0n1aj(k,n)xj for kxk+1

onde o pode ser descrito por uma relação de recorrência:aj(k,n)

aj(k,n)={1k=0,j=n10k=0,j<n1aj(k1,n)+(1)n+kj1(nk)(n1j)knj1k>1


Você pode ver a fórmula acima como sendo construída por uma convolução repetida de com onde a integral é resolvida por partes. Podemos generalizar isso para variáveis ​​distribuídas Beta com qualquer e ?Xn1Ynαβ

Seja

Xn(α,β)=i=1nYi with UiBeta(α,β)

Esperamos que a função seja dividida em partes (embora possivelmente não seja mais um spline). A convolução para calcular a distribuição de será algo como:fX(x;n,α,β)nXn(α,β)=Xn1(α,β)+Un

fX(x;n,α,β)=1min(1,nx)min(1,x)fX(xy;n1,α,β)yα1(1y)β1dy

  • Para :n=2

    fX(x;n,α,β)={0xx((xy)y)α1((1x+y)(1y))β1dyif 0x1x11((xy)y)α1((1x+y)(1y))β1dyif 1x2

    • Para números inteiros e :αβ os termos como e podem ser expandidos para valores inteiros de e , de modo que a integral seja fácil de resolver.((xy)y)α1((1x+y)(1y))β1αβ

      Por exemplo:

      fX(x;2,2,2)={130x3(x25x+5)if x1130(2x)3(x2+x1)if x1fX(x;2,3,3)={1630x5(x49x3+30x242x+21)if x11630(2x)5(x4+x32x+1)if x1

A solução para valores inteiros de e também será um spline. Possivelmente, isso poderia ser convertido em alguma fórmula agradável (ou provavelmente não tão agradável) para situações mais gerais (não apenas e ou ). Mas, nesse ponto, é preciso tomar algumas xícaras de café, ou melhor, uma infusão, para lidar com essas coisas.αβn=2α=β=2α=β=3

Sextus Empiricus
fonte
1

Eu pensei que era uma pergunta interessante, então aqui está uma rápida exploração visual. Para , primeiro selecionei 4 distribuições Beta separadas (PDFs mostrados abaixo).XBeta(α1,α2)

Beta_PDFs

Em seguida, coletei amostras médias, e plotei os histogramas correspondentes, como mostrado abaixo. Os resultados parecem normais e estou inclinado a acreditar na afirmação de @ ChristophHanck de que o Teorema do Limite Central (CLT) está funcionando aqui. X¯=1ni=1nxi

Beta_means


Código MATLAB

% Parameters
n = 5000;
K = 5000;
% Define Beta distributions
pd1 = makedist('Beta',0.25,0.45);
pd2 = makedist('Beta',0.25,2.5);
pd3 = makedist('Beta',4,0.15);
pd4 = makedist('Beta',3.5,5);
% Collect Sample Means
X1bar = zeros(K,1);
X2bar = zeros(K,1);
X3bar = zeros(K,1);
X4bar = zeros(K,1);
for k = 1:K                           % get K sample means 
    X1bar(k) = mean(random(pd1,n,1)); % take mean of n samples
    X2bar(k) = mean(random(pd2,n,1));
    X3bar(k) = mean(random(pd3,n,1));
    X4bar(k) = mean(random(pd4,n,1));
end
% Plot Beta distribution PDFs
Xsupport = 0:.01:1;

figure, hold on, box on
title('Beta(\alpha_1,\alpha_2) PDFs')
plot(Xsupport,pdf(pd1,Xsupport),'r-','LineWidth',2.2)
plot(Xsupport,pdf(pd2,Xsupport),'b-','LineWidth',2.2)
plot(Xsupport,pdf(pd3,Xsupport),'k-','LineWidth',2.2)
plot(Xsupport,pdf(pd4,Xsupport),'g-','LineWidth',2.2)
legend('(0.25,0.45)','(0.25,2.5)','(4,0.15)','(3.5,5)')

figure
s(1) = subplot(2,2,1), hold on, box on
    histogram(X1bar,'FaceColor','r')
s(2) = subplot(2,2,2), hold on, box on
    histogram(X2bar,'FaceColor','b')
s(3) = subplot(2,2,3), hold on, box on
    histogram(X3bar,'FaceColor','k')
s(4) = subplot(2,2,4), hold on, box on
    histogram(X4bar,'FaceColor','g')
title(s(1),'(0.25,0.45)')
title(s(2),'(0.25,2.5)')
title(s(3),'(4,0.15)')
title(s(4),'(3.5,5)')

Edit: Este post foi uma tentativa rápida de fornecer algo ao OP. Como apontado, sabemos que o Teorema Central do Limite (CLT) implica que esses resultados serão válidos para qualquer distribuição com uma variação finita.

SecretAgentMan
fonte
2
Você executou vários exemplos demonstrando o CLT. Como observado nos comentários, não há nada de especial nas distribuições Beta nesses exemplos: você pode começar literalmente com qualquer distribuição de variação finita e obter resultados idênticos.
whuber
Você está certo. Votei positivamente esse comentário, mas dei uma resposta porque não havia. É claro que o CLT é válido para uma distribuição de variância finita. Eu até mencionei o comentarista na resposta. Devo excluir esta resposta? Ou torná-lo comunitário?
SecretAgentMan