O que exatamente é o alfa na distribuição Dirichlet?

Sou bastante novo nas estatísticas bayesianas e me deparei com uma medida de correlação corrigida, SparCC , que usa o processo Dirichlet no backend de seu algoritmo. Eu tenho tentado percorrer o algoritmo passo a passo para realmente entender o que está acontecendo, mas não sei exatamente o que o alphaparâmetro vetorial faz em uma distribuição Dirichlet e como ele normaliza o alphaparâmetro vetorial.

A implementação está em Pythonuso NumPy: https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html

Os documentos dizem:

alpha: array Parâmetro da distribuição (dimensão k para amostra da dimensão k).

Minhas perguntas:

Como isso alphasafeta a distribuição ?;
Como estão alphassendo normalizados ?; e
O que acontece quando alphasnão são números inteiros?

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Reproducibility
np.random.seed(0)

# Integer values for alphas
alphas = np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# Dirichlet Distribution
dd = np.random.dirichlet(alphas) 
# array([ 0.        ,  0.0175113 ,  0.00224837,  0.1041491 ,  0.1264133 ,
#         0.06936311,  0.13086698,  0.15698674,  0.13608845,  0.25637266])

# Plot
ax = pd.Series(dd).plot()
ax.set_xlabel("alpha")
ax.set_ylabel("Dirichlet Draw")

distributions bayesian dirichlet-distribution O.rka
fonte

Você tem problemas com a entrada da Wikipedia nesta distribuição ?

Xi'an

Desculpas, acho que não escrevi corretamente. Entendo o que é uma distribuição de probabilidade / pdf / pmf, mas fiquei confuso sobre como a normalização estava acontecendo. Na wikipedia, parece que a normalização está ocorrendo através das funções gama após o

. Ouvi dizer que é uma distribuição sobre distribuições e é difícil ver isso nos eqns da wikipedia.

\prod {x_{i}}^{α - 1}

${\prod}{x_i}^{\alpha - 1}$

O.rka

Se você normalizar os alfa, obtém a média da distribuição. Se você normalizar a distribuição, assegura que sua integral sobre seu suporte é igual a 1 e, portanto, é uma distribuição de probabilidade válida.

Eskapp

A distribuição Dirichlet é uma distribuição sobre o simplex, portanto, uma distribuição sobre distribuições de suporte finito. Se você pretende uma distribuição em distribuições contínuas, deve analisar o processo Dirichlet.

Xian

Respostas:

A distribuição de Dirichlet é uma distribuição de probabilidade multivariada que descreve variáveis , de modo que cada e , que é parametrizado por um vetor de parâmetros com valor positivo . Os parâmetros não $k\ge2$ $X_1,\dots,X_k$ $x_i \in (0,1)$ $\sum_{i=1}^N x_i = 1$ $\boldsymbol{\alpha} = (\alpha_1,\dots,\alpha_k)$ tem que ser números inteiros, eles só precisam ser números reais positivos. Eles não são "normalizados" de forma alguma, são parâmetros dessa distribuição.

A distribuição Dirichlet é uma generalização da distribuição beta em várias dimensões, para que você possa começar aprendendo sobre a distribuição beta. Beta é uma distribuição univariada de uma variável aleatória parametrizada pelos parâmetros e . A boa intuição sobre isso ocorre se você se lembrar de que é um conjugado anterior para a distribuição binomial e se assumirmos um beta anterior parametrizado por e para o parâmetro de probabilidade da distribuição binomial , a distribuição posterior de $X \in (0,1)$ $\alpha$ $\beta$ $\alpha$ $\beta$ $p$ $p$ também é uma distribuição beta parametrizada por e . Portanto, você pode pensar em e como em pseudocontagens (eles não precisam ser inteiros) de sucessos e falhas (verifique também este encadeamento ). $\alpha' = \alpha + \text{number of successes}$ $\beta' = \beta + \text{number of failures}$ $\alpha$ $\beta$

No caso da distribuição Dirichlet, é um conjugado anterior para a distribuição multinomial . Se, no caso da distribuição binomial, podemos pensar em termos de desenhar bolas brancas e pretas com substituição da urna, então, no caso da distribuição multinomial, estamos desenhando com bolas substituição que aparecem em cores, onde cada uma das cores das bolas podem ser sacadas com probabilidades . A distribuição de Dirichlet é um conjugado anterior para probabilidades e $N$ $k$ $p_1,\dots,p_k$ $p_1,\dots,p_k$ parâmetros podem ser considerados comopseudocontagensde bolas de cada cor assumidasa priori(mas você deve ler também sobre asarmadilhas desse raciocínio). No modelo Dirichlet-multinomial é atualizado somando-os com as contagens observadas em cada categoria: maneira semelhante à do modelo beta-binomial. $\alpha_1,\dots,\alpha_k$ $\alpha_1,\dots,\alpha_k$ $\alpha_1+n_1,\dots,\alpha_k+n_k$

O valor mais alto de , o maior "peso" de e a maior quantidade de "massa" total são atribuídos a ele (lembre-se de que no total ele deve ser ). Se todos os são iguais, a distribuição é simétrica. Se , pode ser pensado como anti-peso que empurra para extremos, enquanto quando é alto, atrai para algum valor central (central no sentido de que todos os pontos estão concentrados em torno dele, não $\alpha_i$ $X_i$ $x_1+\dots+x_k=1$ $\alpha_i$ $\alpha_i < 1$ $x_i$ $x_i$ no sentido em que é simetricamente central). Se , então os pontos são distribuídos uniformemente. $\alpha_1 = \dots = \alpha_k = 1$

Isso pode ser visto nas plotagens abaixo, onde é possível ver distribuições triviais de Dirichlet (infelizmente, podemos produzir plotagens razoáveis apenas até três dimensões) parametrizadas por (a) , (b) , (c) , (d) $\alpha_1 = \alpha_2 = \alpha_3 = 1$ $\alpha_1 = \alpha_2 = \alpha_3 = 10$ $\alpha_1 = 1, \alpha_2 = 10, \alpha_3 = 5$ . $\alpha_1 = \alpha_2 = \alpha_3 = 0.2$

A distribuição de Dirichlet às vezes é chamada de "distribuição sobre distribuições" , pois pode ser pensada como uma distribuição de probabilidades. Observe que, uma vez que cada e , são consistentes com o primeiro e o segundo axiomas de probabilidade . Portanto, você pode usar a distribuição Dirichlet como uma distribuição de probabilidades para eventos discretos descritos por distribuições como categorias categóricas e não $x_i \in (0,1)$ $\sum_{i=1}^k x_i = 1$ $x_i$ ou multinomial . Isto éverdade que é uma distribuição sobre quaisquer distribuições, por exemplo, não está relacionada a probabilidades de variáveis aleatórias contínuas ou mesmo a algumas discretas (por exemplo, uma variável aleatória distribuída de Poisson descreve probabilidades de observar valores que são números naturais, portanto, use Para distribuir diretórios por suas probabilidades, você precisará de um número infinito de variáveis aleatórias ). $k$

Tim
fonte

Explicação incrível

O.rka

Disclaimer: Eu nunca trabalhei com esta distribuição antes. Esta resposta é baseada neste artigo da Wikipedia e na minha interpretação.

A distribuição Dirichlet é uma distribuição de probabilidade multivariada com propriedades semelhantes à distribuição Beta.

O PDF é definido da seguinte forma:

{x_{1}, \dots, x_{K}} \sim \frac{1}{B (α)} \prod_{i = 1}^{K} x_{i}^{α_{i} - 1}

$\{x_1, \dots, x_K\} \sim\frac{1}{B(\boldsymbol{\alpha})}\prod_{i=1}^Kx_i^{\alpha_i - 1}$

com , e . $K \geq 2$ $x_i \in (0,1)$ $\sum_{i=1}^Kx_i = 1$

Se olharmos para a distribuição Beta intimamente relacionada:

{x_{1}, x_{2} (= 1 - x_{1})} \sim \frac{1}{B (α, β)} x_{1}^{α - 1} x_{2}^{β - 1}

$\{x_1, x_2 (=1-x_1)\} \sim \frac{1}{B(\alpha,\beta)}x_1^{\alpha-1}x_2^{\beta-1}$

podemos ver que essas duas distribuições são iguais se . Então, vamos basear nossa interpretação nisso primeiro e depois generalizar para . $K=2$ $K>2$

Nas estatísticas bayesianas, a distribuição Beta é usada como um conjugado antes dos parâmetros binomiais (consulte Distribuição Beta ). O prior pode ser definido como algum conhecimento prévio sobre e (ou de acordo com a distribuição de Dirichlet e ). Se algum teste binomial tiver sucessos e falhas , a distribuição posterior será a seguinte: e $\alpha$ $\beta$ $\alpha_1$ $\alpha_2$ $A$ $B$ $\alpha_{1,pos} = \alpha_1 + A$ . (Não vou resolver isso, pois essa é provavelmente uma das primeiras coisas que você aprende com as estatísticas bayesianas). $\alpha_{2,pos}=\alpha_2 + B$

Portanto, a distribuição Beta representa alguma distribuição posterior em e , que pode ser interpretada como a probabilidade de sucessos e falhas, respectivamente, em uma distribuição binomial. E quanto mais dados ( e ) você tiver, mais estreita será a distribuição posterior. $x_1$ $x_2 (=1-x_1)$ $A$ $B$

Agora que sabemos como a distribuição funciona para , podemos generalizá-la para trabalhar para uma distribuição multinomial em vez de um binomial. O que significa que, em vez de dois resultados possíveis (sucesso ou fracasso), permitiremos resultados (veja por que ele se generaliza para Beta / Binom se ?). Cada um destes resultados terá uma probabilidade , que resume a 1 como probabilidades fazer. $K=2$ $K$ $K=2$ $K$ $x_i$

, em seguida, assume um papel semelhante ao e na distribuição Beta como uma prévia para e é atualizado de forma semelhante. $\alpha_i$ $\alpha_1$ $\alpha_2$ $x_i$

Então agora, para responder às suas perguntas:

Como isso alphasafeta a distribuição?

$x_i \in (0,1)$ $\sum_{i=1}^Kx_i = 1$ $\alpha_i$ $K$ $\sum_{i=1}^K\alpha_i$ $x_i$ ou as probabilidades para cada um dos resultados. Isso significa que a densidade será mais concentrada.

Como estão alphassendo normalizados?

$B(\boldsymbol{\alpha})$

B (α) = \frac{\prod_{i = 1}^{K} Γ (α_{i})}{Γ (\sum_{i = 1}^{K} α_{i})}

$B(\boldsymbol{\alpha}) = \frac{\prod_{i=1}^K\Gamma(\alpha_i)}{\Gamma(\sum_{i=1}^K\alpha_i)}$

$K=2$

B (α_{1}, α_{2}) = \frac{Γ (α_{1}) Γ (α_{2})}{Γ (α_{1} + α_{2})}

$B(\alpha_1, \alpha_2) = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)}{\Gamma(\alpha_1+\alpha_2)}$

Isso se estende a

B (α) = \frac{Γ (α_{1}) Γ (α_{2}) \dots Γ (α_{K})}{Γ (α_{1} + α_{2} + \dots + α_{K})}

$B(\boldsymbol{\alpha}) = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_K)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_K)}$

What happens when the alphas are not integers?

The interpretation doesn't change for $\alpha_i>1$ , but as you can see in the image I linked before, if $\alpha_i < 1$ the mass of the distribution accumulates at the edges of the range for $x_i$ . $K$ on the other hand has to be an integer and $K\geq2$ .

JAD
fonte

Thanks for this. Your explanation was super useful. I wish I could have marked both of them as correct.

O.rka