A distribuição beta aparece em duas parametrizações (ou aqui )
ou aquele que parece ser usado com mais frequência
Mas por que exatamente existe " " na segunda fórmula?
A primeira formulação intuitivamente parece corresponder mais diretamente à distribuição binomial
mas "visto" da perspectiva do . Isso é especialmente claro no modelo beta-binomial, em que pode ser entendido como um número anterior de sucessos e é um número anterior de falhas.
Então, por que exatamente a segunda forma ganhou popularidade e qual é a lógica por trás dela? Quais são as conseqüências do uso de qualquer uma das parametrizações (por exemplo, para a conexão com a distribuição binomial)?
Seria ótimo se alguém pudesse apontar adicionalmente as origens dessa escolha e os argumentos iniciais para ela, mas isso não é uma necessidade para mim.
Respostas:
Esta é uma história sobre graus de liberdade e parâmetros estatísticos e por que é bom que os dois tenham uma conexão direta direta.
Historicamente, os termos " " apareceram nos estudos de Euler da função Beta. Ele usava essa parametrização em 1763, assim como Adrien-Marie Legendre: o uso deles estabeleceu a convenção matemática subsequente. Este trabalho antecede todas as aplicações estatísticas conhecidas.−1
A teoria matemática moderna fornece amplas indicações, através das inúmeras aplicações em análise, teoria dos números e geometria, de que os termos " " realmente têm algum significado. Eu esbocei alguns desses motivos nos comentários à pergunta.−1
De mais interesse é o que deveria ser a parametrização estatística "certa". Isso não é tão claro e não precisa ser o mesmo que a convenção matemática. Existe uma enorme rede de famílias comumente usadas, conhecidas e inter-relacionadas de distribuições de probabilidade. Portanto, as convenções usadas para nomear (ou seja, parametrizar) uma família geralmente implicam convenções relacionadas para nomear famílias relacionadas. Altere uma parametrização e você desejará alterá-las todas. Podemos, portanto, olhar para esses relacionamentos em busca de pistas.
Poucas pessoas discordariam que as famílias de distribuição mais importantes derivam da família Normal. Recorde-se que uma variável aleatória é dito ser "Normalmente distribuído" quando ( X - μ ) / σ tem uma densidade de probabilidade f ( x ) proporcional a exp ( - x 2 / 2 ) . Quando σ = 1 e μ = 0 , diz-se que X tem uma distribuição normal padrão .X (X−μ)/σ f(x) exp(−x2/2) σ=1 μ=0 X
Muitos conjuntos de dados são estudados usando estatísticas relativamente simples envolvendo combinações racionais dos dados e baixas potências (normalmente quadrados). Quando esses dados são modelados como amostras aleatórias de uma distribuição Normal - de modo que cada x i é visto como uma realização de uma variável Normal X i , todos os X i compartilham uma distribuição comum e são independentes - as distribuições dessas estatísticas são determinados por essa distribuição normal. Os que surgem mais frequentemente na prática sãox1,x2,…,xn xi Xi Xi
,adistribuição t de Studentcom ν = n - 1 "graus de liberdade". Esta é a distribuição da estatística t = ˉ Xtν t ν=n−1 onde ˉ X =(X1+X2+⋯+Xn)/nmodela a média dos dados ese(X)=(1/√
,adistribuição χ 2 (qui-quadrado)com ν "graus de liberdade" (df). Esta é a distribuição da soma dos quadrados de ν variáveis normais padrão independentes. A distribuição da média dos quadrados dessas variáveis será, portanto, χχ2ν χ2 ν ν distribuição 2 escalada em 1 / ν : vou me referir a isso como umadistribuição χ 2 "normalizada".χ2 1/ν χ2
,adistribuição da razão F com os parâmetros ( ν 1 , ν 2 ) é a razão de duasvariáveisnormalizadas independentesFν1,ν2 F (ν1,ν2) distribuições χ 2com ν 1 e ν 2 graus de liberdade.χ2 ν1 ν2
Cálculos matemáticos mostram que todas essas três distribuições têm densidades. Importante, a densidade dodistribuição χ 2 ν é proporcional ao integrando na definição integral de Euler da função Gamma ( Γ ). Vamos compará-los:χ2ν Γ
Isso mostra que duas vezes uma variável tem uma distribuição gama com o parâmetro ν / 2 . O fator da metade é bastante incômodo, mas subtrair 1 tornaria o relacionamento muito pior. Isso já fornece uma resposta convincente à pergunta: se queremos que o parâmetro de um χ 2 de distribuição para contar o número de variáveis normais quadrados que o produzem (até um factor de 1 / 2 ), então o expoente em sua função de densidade must ser um a menos da metade dessa contagem.χ2ν ν/2 1 χ2 1/2
Por que é o fator de menos problemático do que uma diferença de 1 ? A razão é que o fator permanecerá consistente quando somarmos as coisas. Se a soma dos quadrados de n normais normais independentes for proporcional a uma distribuição gama com parâmetro n (vezes algum fator), então a soma dos quadrados de m normais normais independentes é proporcional a uma distribuição gama com parâmetro m (vezes o mesmo fator) , onde a soma dos quadrados de todas as variáveis n + m é proporcional a uma distribuição gama com o parâmetro m + n (ainda é o mesmo fator).1/2 1 n n m m n+m m+n O fato de adicionar os parâmetros emular tanto a adição de contagens é muito útil.
Se, no entanto, formos remover esse " " de aparência traquina das fórmulas matemáticas, esses bons relacionamentos se tornarão mais complicados. Por exemplo, se alterássemos a parametrização das distribuições Gama para nos referirmos à potência real de x na fórmula, de modo que uma distribuição χ 2 1 estaria relacionada a uma distribuição "Gama ( 0 ) " (uma vez que a potência de x em sua PDF é 1 - 1 = 0 ), então a soma de três χ−1 x χ21 (0) x 1−1=0 distribuições 2 1 teria que ser chamada de "Gama(2)χ21 (2) "distribuição. Em suma, a estreita relação aditiva entre graus de liberdade e o parâmetro nas distribuições Gamma seria perdida removendo o da fórmula e absorvendo-o no parâmetro.−1
Da mesma forma, a função de probabilidade de uma distribuição da razão está intimamente relacionada às distribuições Beta. De fato, quando Y tem uma distribuição de razão F , a distribuição de Z = ν 1 Y / ( ν 1 Y + ν 2 ) tem um Beta ( ν 1 /F Y F Z=ν1Y/(ν1Y+ν2) de distribuição. Sua função de densidade é proporcional a(ν1/2,ν2/2)
Além disso - tomando essas idéias em um círculo completo - o quadrado de uma distribuição Student com ν df tem uma distribuição de razão F com parâmetros ( 1 , ν ) . Mais uma vez, é evidente que manter a parametrização convencional mantém uma relação clara com as contagens subjacentes que contribuem para os graus de liberdade.t ν F (1,ν)
Do ponto de vista estatístico, então, seria mais natural e simples de usar uma variação das parametrizações matemáticas convencionais de e distribuição beta: devemos preferir chamar um Γ ( α ) de distribuição de um " Γ ( 2 α ) de distribuição" e a distribuição beta ( α , β ) deve ser chamada de "distribuição beta ( 2 α , 2 β ) ". De fato, já fizemos isso: é exatamente por isso que continuamos a usar os nomes "Qui-quadrado" e " FΓ Γ(α) Γ(2α) (α,β) (2α,2β) F distribuição "Razão " em vez de "Gama" e "Beta". Independentemente, em nenhum caso gostaríamos de remover os termos " " que aparecem nas fórmulas matemáticas de suas densidades.−1 Se o fizéssemos, perderíamos a conexão direta entre os parâmetros nas densidades e as contagens de dados às quais eles estão associados: sempre estaríamos desligados por um.
fonte
A notação está enganando você. Há um "escondido " na fórmula ( 1 ) , porque em ( 1 ) , α e β deve ser maior do que - 1 (o segundo link que você forneceu na sua pergunta diz isso explicitamente). Os α 'e β ' nas duas fórmulas não são os mesmos parâmetros; eles têm faixas diferentes: em ( 1 ) , α , β > - 1 e em ( 2 ) , α , β−1 (1) (1) α β −1 α β (1) α,β>−1 (2) . Esses intervalos paraα,β>0 e β são necessários para garantir que a integral da densidade não diverja. Para ver isso, considere em ( 1 ) o caso α = - 1 (ou menos) e β = 0 e tenteintegrara densidade (núcleo da) entre 0 e 1 . Equivalentemente, tente o mesmo em ( 2 ) para α = 0 (ou menos) e β = 1 .α β (1) α=−1 β=0 0 1 (2) α=0 β=1
fonte
For me, the existence of -1 in the exponent is related with the develpment of the Gamma function. The motivation of the Gamma function is to find a smooth curve to connect the points of a factorialx! . Since it is not possible to compute x! directly if x is not integer, the idea was to find a function for any x≥0 that satisfies the recurrence relation defined by the factorial, namely
Solution was by means of the convergence of an integral. For the function defined as
integration by parts provides the following:
So, the function above satisfies this property, and the -1 in the exponent derives from the procedure of integration by parts. See the Wikipedia article https://en.wikipedia.org/wiki/Gamma_function .
Edit: I apologise if my post is not fully clear; I am just trying to point that, in my idea, the existence of -1 in the beta distribution comes from the generalisation of the factorial by means of the Gamma function. There are two conditions:f(1)=1 and f(x+1)=x⋅f(x) . We have Γ(x)=(x−1)! , therefore it satisfies Γ(x+1)=x⋅Γ(x)=x⋅(x−1)!=x! . In addition, we have Γ(1)=(1−1)!=0!=1 . As for the beta distribution with parameters α,β , generalisation of the Binomial coefficient is Γ(α+β)Γ(α)⋅Γ(β)=(α+β−1)!(α−1)!⋅(β−1)! . There we have the -1 in the denominator, for both parameters.
fonte