Quantos lados tem um dado? Inferência bayesiana no JAGS

Esse é um problema interessante denominado 'amostragem de espécies', que recebeu muita atenção ao longo dos anos e abrange muitos outros problemas de estimativa (como a recuperação de marcas). Basta dizer que o JAGS não ajudará nesse caso - o JAGS não pode manipular cadeias de Markov com uma dimensão variável nas iterações. É preciso recorrer a um esquema MCMC projetado para problemas como o MCMC de salto reversível.

Aqui está uma abordagem adequada ao modelo específico que você está descrevendo, que eu encontrei pela primeira vez no trabalho de Jeff Miller ( arxived ).

Parte I (questão original)

Uma suposição que farei é que uma observação de uma determinada categoria implica a existência de categorias de menor classificação. Ou seja, observar um rolo de dado no lado 9 implica na existência dos lados 1-8. Não precisa ser assim - as categorias podem ser arbitrárias -, mas eu assumo isso no meu exemplo. Isso significa que 0 valores são observáveis, em contraste com outros problemas de estimativa de espécies.

Digamos que temos uma amostra multinomial,

Y = {y_{1}, y_{2}, \dots, y_{m}, y_{m + 1}, \dots, y_{n}} \sim M ({p_{1}, p_{2}, \dots, p_{m}, p_{m + 1}, \dots, p_{n}})

$Y = \{y_1, y_2, \dots, y_m, y_{m+1}, \dots, y_{n} \} \sim \mathcal{M}(\{p_1, p_2, \dots, p_m, p_{m+1}, \dots, p_n\})$

onde é a categoria máxima observada, é o número (desconhecido) de categorias e todos iguais a 0. O parâmetro é finito e precisamos um prior para isso. Qualquer prévia discreta e adequada com suporte em funcionará; Tomemos, por exemplo, um Poisson truncado com zero: $m$ $n$ $\{y_{m+1},\dots,y_{n}\}$ $n$ $[1, \infty)$

n \sim P (λ), n > 0

$n \sim \mathcal{P}(\lambda), n > 0$

Um prior conveniente para as probabilidades multinomiais é o Dirichlet,

P = {p_{1}, \dots, p_{n}} \sim D ({α_{1}, \dots, α_{n}})

$P = \{ p_1, \dots, p_n \} \sim \mathcal{D}(\{ \alpha_1, \dots, \alpha_n \})$

E, por simplicidade, assuma . $\alpha_1 = \alpha_2 = \dots = \alpha_n = \tilde{\alpha}$

Para tornar o problema mais tratável, marginalizamos os pesos:

p (Y | \tilde{α}, n) = \int_{P} p (Y | P, n) p (P | \tilde{α}, n) d P

$p(Y|\tilde{\alpha}, n) = \int_P p(Y|P, n)p(P|\tilde{\alpha}, n) dP$

Que neste caso lidera a bem estudada distribuição multinomial de Dirichlet . O objetivo é estimar o posterior condicional,

p (n | Y, \tilde{α}, λ) = \frac{p (Y | n, \tilde{α}) p (n | λ)}{p (Y | \tilde{α}, λ)}

$p(n|Y, \tilde{\alpha}, \lambda) = \frac{ p(Y|n, \tilde{\alpha}) p(n|\lambda) }{ p(Y|\tilde{\alpha}, \lambda) }$

Onde eu estou assumindo explicitamente que e são hiperparâmetros fixos. É fácil ver que: $\tilde{\alpha}$ $\lambda$

p (Y | \tilde{α}, λ) = \sum_{n = 1}^{\infty} p (Y | n, \tilde{α}) p (n | λ)

$p(Y|\tilde{\alpha}, \lambda) = \sum_{n=1}^\infty p(Y|n, \tilde{\alpha}) p(n|\lambda)$

Onde onde . Essa série infinita deve convergir rapidamente (desde que a cauda do prior não seja muito pesada) e, portanto, fácil de aproximar. Para o Poisson truncado, ele tem a forma: $p(Y|n, \tilde{\alpha}) = 0$ $n < m$

p (Y | \tilde{α}, λ) = \frac{1}{(e^{λ} - 1)} \sum_{n = m}^{\infty} \frac{Γ (n \tilde{α}) \prod_{i = 1}^{n} Γ (y_{i} + \tilde{α})}{Γ (n \tilde{α} + \sum_{i = 1}^{n} y_{i}) Γ (\tilde{α})^{n}} \cdot \frac{λ^{n}}{n!}

$p(Y|\tilde{\alpha}, \lambda) = \frac{1}{(e^\lambda - 1)} \sum_{n=m}^\infty \frac{\Gamma(n\tilde{\alpha})\prod_{i=1}^n \Gamma(y_i + \tilde{\alpha})}{\Gamma(n\tilde{\alpha} + \sum_{i=1}^n y_i) \Gamma(\tilde{\alpha})^n} \cdot \frac{\lambda^n}{n!}$

Levando a:

p (n | Y, \tilde{α}, λ) = \frac{Γ (n \tilde{α}) \prod_{i = 1}^{n} Γ (y_{i} + \tilde{α})}{Γ (n \tilde{α} + \sum_{i = 1}^{n} y_{i}) Γ (\tilde{α})^{n}} \cdot \frac{λ^{n}}{n!} \cdot {(\sum_{j = m}^{\infty} \frac{Γ (j \tilde{α}) \prod_{i = 1}^{j} Γ (y_{i} + \tilde{α})}{Γ (j \tilde{α} + \sum_{i = 1}^{j} y_{i}) Γ (\tilde{α})^{j}} \cdot \frac{λ^{j}}{j!})}^{- 1}

$p(n|Y,\tilde{\alpha}, \lambda) = \frac{\Gamma(n\tilde{\alpha})\prod_{i=1}^n \Gamma(y_i + \tilde{\alpha})}{\Gamma(n\tilde{\alpha} + \sum_{i=1}^n y_i) \Gamma(\tilde{\alpha})^n} \cdot \frac{\lambda^n}{n!} \cdot \left(\sum_{j=m}^\infty \frac{\Gamma(j\tilde{\alpha})\prod_{i=1}^j \Gamma(y_i + \tilde{\alpha})}{\Gamma(j\tilde{\alpha} + \sum_{i=1}^j y_i) \Gamma(\tilde{\alpha})^j} \cdot \frac{\lambda^j}{j!}\right)^{-1}$

Que tem suporte em . Não há necessidade de MCMC nesse caso, pois as séries infinitas no denominador da regra de Bayes podem ser aproximadas sem muito esforço. $[m, \infty)$

Aqui está um exemplo desleixado em R:

logPosteriorN <- function(max, Y, lambda, alpha){
    m <- length(Y)
    sumy <- sum(Y)
    pp <- sapply(1:max, function(j){
        prior <- log(lambda)*j - log(exp(lambda)-1) - lgamma(j+1)
        posterior <- lgamma(alpha*j) + sum(lgamma(Y + alpha)) - j*lgamma(alpha) - lgamma(sumy + j*alpha)
        if( j > m ) { posterior <- posterior + (j-m)*lgamma(alpha) } 
        else if( j < m ) { posterior = -Inf }
        prior + posterior
        })
    evidence <- log(sum(exp(pp))) # there's no check that this converges
    pp - evidence
}

## with even representation of sides
Y <- c(10, 10, 10, 10)
post <- logPosteriorN(30, Y, 10, 1.2)
plot(1:30, exp(post), pch=19, type="b")

## with uneven representation of sides
Y <- c(1, 2, 1, 0, 0, 2, 1, 0, 1)
post <- logPosteriorN(30, Y, 10, 1.2)
plot(1:30, exp(post), pch=19, type="b")

Sua intuição está correta: a amostragem esparsa entre categorias leva a uma maior incerteza sobre o número total de categorias. Se você deseja tratar como um parâmetro desconhecido, precisará usar o MCMC e atualizações alternativas de e . $\tilde{\alpha}$ $n$ $\tilde{\alpha}$

Obviamente, essa é uma abordagem para a estimativa. Você encontrará facilmente outros (de sabores bayesianos e não bayesianos) com um pouco de pesquisa.

Parte II (Resposta ao comentário)

$Y = \{y_1, \dots, y_m, y_{m+1}, \dots, y_n \}$ é um vetor multinomial parcialmente observado com probabilidades correspondentes : $\Omega = \{\omega_1, \dots, \omega_m, \omega_{m+1}, \dots, \omega_n\}$

P r (Y | Ω, n) = \frac{Γ (\sum_{i = 1}^{n} y_{i} + 1)}{\prod_{i = 1}^{n} Γ (y_{i} + 1)} \prod_{i = 1}^{n} ω_{i}^{y_{i}}

$\mathrm{Pr}(Y|\Omega, n) = \frac{\Gamma(\sum_{i=1}^n y_i + 1)}{\prod_{i=1}^n \Gamma(y_i + 1) } \prod_{i=1}^n \omega_i^{y_i}$

Onde , e mas, caso contrário, os índices são abitrários. Como antes, o problema é inferir o número real de categorias , e começamos com um prior em como um Poisson truncado com zero: $y \in \mathbb{N}$ $y_1 \dots y_m > 0$ $y_{m+1} \dots y_n = 0$ $n$ $n$

P r (n | λ) = \frac{λ^{n}}{(\exp {λ} - 1) n!}, n \in Z^{+}

$\mathrm{Pr}(n|\lambda) = \frac{\lambda^{n}}{(\exp\{\lambda\} - 1)n!},~n \in \mathbb{Z}^+$

Também como antes, tratamos as probabilidades multinomiais como Dirichlet distribuído com um hiperparâmetro simétrico , ou seja, para um dado , $\Omega$ $\tilde{\alpha}$ $n$

P r (Ω | \tilde{α}, n) = \frac{Γ (n \tilde{α})}{Γ (\tilde{α})^{n}} \prod_{i = 1}^{n} ω_{i}^{\tilde{α} - 1}

$\mathrm{Pr}(\Omega|\tilde{\alpha}, n) = \frac{\Gamma(n\tilde{\alpha})}{\Gamma(\tilde{\alpha})^n} \prod_{i=1}^n \omega_i^{\tilde{\alpha}-1}$

A integração (marginalização) sobre o vetor de probabilidades fornece ao Dirichlet multinomial:

P r (Y | \tilde{α}, n) = \int P r (Y | Ω, n) P r (Ω | \tilde{α}, n) = \frac{Γ (n \tilde{α})}{Γ (\sum_{i = 1}^{n} y_{i} + n \tilde{α}) Γ (\tilde{α})^{n}} \prod_{i = 1}^{n} Γ (y_{i} + \tilde{α})

$\mathrm{Pr}(Y|\tilde{\alpha}, n) = \int \mathrm{Pr}(Y|\Omega, n) \mathrm{Pr}(\Omega|\tilde{\alpha}, n) = \frac{\Gamma(n \tilde{\alpha})} {\Gamma(\sum_{i=1}^n y_i + n \tilde{\alpha}) \Gamma(\tilde{\alpha})^n} \prod_{i=1}^n \Gamma(y_i + \tilde{\alpha})$

Aqui é onde divergimos do modelo na Parte I acima. Na Parte I, havia uma ordem implícita para categorias: por exemplo, em um dado de lados, as categorias (lados) têm uma ordem implícita e a observação de qualquer categoria implica a existência de categorias menores . Na Parte II, temos um vetor aleatório multinomial parcialmente observado, que não possui ordem implícita. Em outras palavras, os dados representam uma partição não ordenada dos pontos de dados em categorias observadas. Denotarei a partição não ordenada que resulta de aumentada por categorias não observadas, como . $n$ $i \in \{1 \dots n\}$ $j < i$ $m \leq n$ $Y$ $n-m$ $\mathcal{P}[Y]$

A probabilidade da partição não ordenada condicional a um número real de categorias pode ser encontrada considerando o número de permutações de categorias que resultam na mesma partição: $n$

P r (P [Y] | \tilde{α}, n) = \frac{n!}{(n - m)!} P r (Y | \tilde{α}, n)

$\mathrm{Pr}(\mathcal{P}[Y]|\tilde{\alpha}, n) = \frac{n!}{(n-m)!} \mathrm{Pr}(Y|\tilde{\alpha}, n)$

E isso pode ser integrado sobre para fornecer: $n$

P r (P [Y] | \tilde{α}, λ) = \sum_{j = m}^{\infty} P r (P [Y] | \tilde{α}, n) P r (n | λ)

$\mathrm{Pr}(\mathcal{P}[Y]|\tilde{\alpha}, \lambda) = \sum_{j=m}^{\infty} \mathrm{Pr}(\mathcal{P}[Y]|\tilde{\alpha}, n) \mathrm{Pr}(n|\lambda)$

Usando a regra de Bayes para recuperar o posterior:

P r (n | P [Y], \tilde{α}, λ) = \frac{P r (P [Y] | n, \tilde{α}) P r (n | λ)}{P r (P [Y] | \tilde{α}, λ)}

$\mathrm{Pr}(n|\mathcal{P}[Y], \tilde{\alpha}, \lambda) = \frac{\mathrm{Pr}(\mathcal{P}[Y]|n, \tilde{\alpha}) \mathrm{Pr}(n|\lambda)}{\mathrm{Pr}(\mathcal{P}[Y]|\tilde{\alpha}, \lambda)}$

Basta conectar a partir das definições acima. Novamente, o denominador é uma série infinita que convergirá rapidamente: nesse modelo simples, não há necessidade de o MCMC fornecer uma aproximação adequada.

Modificando o código R da parte I:

logPosteriorN_2 <- function(max, Y, lambda, alpha){
    m <- length(Y)
    sumy <- sum(Y)
    pp <- sapply(1:max, function(j){
        prior <- log(lambda)*j - log(exp(lambda)-1) - lgamma(j+1)
        likelihood <- lchoose(j, m) + lgamma(m + 1) + lgamma(alpha*j) + sum(lgamma(Y + alpha)) - j*lgamma(alpha) - lgamma(sumy + j*alpha)
        if( j > m ) { likelihood <- likelihood + (j-m)*lgamma(alpha) } 
        else if( j < m ) { likelihood = -Inf }
        prior + likelihood
        })
    evidence <- log(sum(exp(pp))) # there's no check that this converges
    pp - evidence
}

Y_1 <- rep(10, 15)
pos_1 <- logPosteriorN_2(50, Y_1, 6, 1)
plot(1:50, exp(pos_1))

Nate Pope
fonte

Muito obrigado pela sua resposta muito completa. (Desculpe pela minha resposta muito lenta). Voltei a esse tipo de pergunta e ainda estou trabalhando na matemática. No meu sistema, as categorias não são ordinais; portanto, a suposição de que uma observação de uma determinada categoria implica a existência de categorias de uma classificação menor é inválida.

Davipatti

@davipatti Respondeu na segunda parte.

Nate Pope

Quantos lados tem um dado? Inferência bayesiana no JAGS

Problema

Intuição

Aproximação

Alternativas?

Respostas: