Generalização contínua da distribuição binomial negativa

24

A distribuição binomial negativa (NB) é definida em números inteiros não negativos e tem função de massa de probabilidade

f(k;r,p)=(k+r1k)pk(1p)r.
Faz sentido considerar uma distribuição contínua em reais não negativos definidos pela mesma fórmula (substituindo kN0 por xR0 )? O coeficiente binomial pode ser reescrito como um produto de (k+1)(k+r1) , que é bem definido para qualquer k real k. Portanto, teríamos um PDF
f(x;r,p)i=1r1(x+i)px(1p)r.
De maneira mais geral, podemos substituir o coeficiente binomial pelas funções Gamma, permitindo valores não inteiros de r :
f(x;r,p)Γ(x+r)Γ(x+1)Γ(r)px(1p)r.

É uma distribuição válida? Isso tem um nome? Tem algum uso? Talvez seja algum composto ou uma mistura? Existem fórmulas fechadas para média e variância (e a proporcionalidade constante no PDF)?

(Atualmente, estou estudando um artigo que usa o modelo de mistura NB (com r = 2 fixo r=2) e o ajusta via EM. No entanto, os dados são números inteiros após alguma normalização, ou seja, não números inteiros. a probabilidade e obter resultados muito razoáveis, então tudo parece funcionar muito bem. Achei muito intrigante. Observe que esta pergunta não se refere ao NB GLM.)

ameba diz Restabelecer Monica
fonte
1
Isso não seria uma mistura de Gammas com o parâmetro de escala logp ? Se você expandir o polinômio Πi=1r1(x+i) obterá i=2raixi1 , multiplicando por px é o mesmo que exp{xlogp} , onde ai é o coeficiente de xi1 no polinômio e logp<0 , é claro, portanto, parece que ele se converteria em um média ponderada das distribuições gama, isto é, uma mistura.
jbowman
... deve ser i=1 na soma acima, na verdade.
jbowman
2
Como depende apenas dos parâmetros, é uma constante que pode ser absorvida na proporcionalidade. Além disso, também possui uma constante que pode ser ignorado. Ao escrever para , você está perguntando sobre uma densidade proporcional aIsso identifica como um fator de escala como um parâmetro de forma. Para integral , é claramente uma mistura de distribuições Gamma. Não faz sentido restringir a números inteiros, no entanto.( x + r - 1(1p)r1/Γ(r)pk=e-kρρ=-log(p)0f(x;r,ρ)=Γ(x+r)(x+r1x)=Γ(x+r)/(Γ(r)Γ(x+1))1/Γ(r)pk=ekρρ=log(p)0ρ r
f(x;r,ρ)=Γ(x+r)Γ(x+1)eρx.
ρr rrr
whuber
1
@whuber Certo. Na verdade, estou usando uma distribuição que é contínua em valores positivos e tem um ponto de massa em zero. Eu acredito que esta é a abordagem correta. Mas me sugeriram usar uma generalização contínua de NB que teria uma probabilidade diferente de zero em zero e, portanto, aparentemente permitiria lidar com zeros exatos. Daí a minha pergunta.
Ameba diz Reinstate Monica
2
Eu acho que pode haver alguma confusão nessa sugestão: ela parece confundir uma probabilidade (que é o que uma massa pontual tem ou uma distribuição NB tem em zero) com uma densidade de probabilidade (que é o valor de seria). Uma densidade diferente de zero não permite que você lide com zeros exatos, porque ainda prevê zero chance de que qualquer valor de apareça! 0f(0,θ)0
whuber

Respostas:

21

Essa é uma pergunta interessante. Meu grupo de pesquisa utiliza a distribuição a que se refere há alguns anos em nosso software de bioinformática disponível ao público. Até onde eu sei, a distribuição não tem um nome e não há literatura. Embora o artigo de Chandra et al (2012) citado por Aksakal esteja intimamente relacionado, a distribuição que eles consideram parece restrita a valores inteiros para e eles não parecem dar uma expressão explícita para o pdf.r

Para lhe dar algumas informações, a distribuição de RNs é muito usada em pesquisas genômicas para modelar dados de expressão gênica decorrentes de RNA-seq e tecnologias relacionadas. Os dados da contagem surgem à medida que o número de sequências de DNA ou RNA é extraído de uma amostra biológica que pode ser mapeada para cada gene. Normalmente, existem dezenas de milhões de leituras de cada amostra biológica que são mapeadas para cerca de 25.000 genes. Alternativamente, pode-se ter amostras de DNA a partir das quais as leituras são mapeadas para janelas genômicas. Nós e outros popularizamos uma abordagem pela qual os NB glms são ajustados às sequências lidas para cada gene, e os métodos empíricos de Bayes são usados ​​para moderar os estimadores de dispersão genéticos (dispersãoϕ=1/r) Essa abordagem foi citada em dezenas de milhares de artigos de periódicos na literatura genômica, para que você possa ter uma idéia de quanto ela é usada.

Meu grupo mantém o pacote de softwares edgeR R. Alguns anos atrás, revisamos o pacote inteiro para que ele funcionasse com contagens fracionárias, usando uma versão contínua do NB pmf. Simplesmente convertemos todos os coeficientes binomiais no NB pmf em proporções de funções gama e o usamos como um pdf contínuo (misto). A motivação para isso foi que as contagens de leitura de sequência às vezes podem ser fracionárias devido a (1) mapeamento ambíguo de leituras para o transcriptoma ou genoma e / ou (2) normalização de contagens para corrigir efeitos técnicos. Portanto, às vezes, as contagens são esperadas ou estimadas, em vez de observadas. E é claro que as contagens de leitura podem ser exatamente zero, com probabilidade positiva. Nossa abordagem garante que os resultados de inferência de nosso software sejam contínuos nas contagens, correspondendo exatamente aos resultados discretos de NB quando as contagens estimadas forem inteiras.

Até onde eu sei, não há forma fechada para a constante de normalização no pdf, nem formas fechadas para a média ou variância. Quando se considera que não existe uma forma fechada para a integral (a constante de Fransen-Robinson), fica claro que não pode haver para a integral da contínua NB pdf também. No entanto, parece-me que as fórmulas tradicionais de média e variância para o RN devem continuar sendo boas aproximações para o RN contínuo. Além disso, a constante de normalização deve variar lentamente com os parâmetros e, portanto, pode ser ignorada como tendo influência desprezível nos cálculos de máxima verossimilhança.

01Γ(x)dz

Pode-se confirmar essas hipóteses por integração numérica. A distribuição de NB surge na bioinformática como uma mistura gama de distribuições de Poisson (consulte o artigo binomial negativo da Wikipedia ou McCarthy et al abaixo). A distribuição NB contínua surge simplesmente substituindo a distribuição Poisson por seu analógico contínuo por pdf para que é uma constante de normalização para garantir que a densidade se integre a 1. Suponha, por exemplo, que . A distribuição de Poisson tem pmf igual ao pdf acima nos números inteiros não negativos e, com

f(x;λ)=a(λ)eλλxΓ(x+1)
x0a(λ)λ=10λ=10, a média e variância de Poisson são iguais a 10. A integração numérica mostra que e a média e variância da distribuição contínua são iguais a 10 a cerca de 4 números significativos. Portanto, a constante de normalização é praticamente 1 e a média e a variação são quase exatamente as mesmas da distribuição discreta de Poisson. A aproximação é melhorada ainda mais se adicionarmos uma correção de continuidade, integrando a vez de 0. Com a correção de continuidade, tudo está correto (a constante de normalização é 1 e os momentos concordam com Poisson discreto) a cerca de 6 figuras.a(10)=1/0.9998751/2

Em nosso pacote edgeR, não precisamos fazer nenhum ajuste pelo fato de haver massa em zero, porque sempre trabalhamos com probabilidade condicional de log ou com diferenças de probabilidade logarítmica e quaisquer funções delta são canceladas nos cálculos. Este é o BTW típico para glms com distribuições de probabilidade mista. Como alternativa, poderíamos considerar a distribuição sem massa em zero, mas com suporte começando em -1/2 em vez de em zero. Qualquer perspectiva teórica leva aos mesmos cálculos na prática.

Embora façamos uso ativo da distribuição NB contínua, não publicamos nada explicitamente. Os artigos citados abaixo explicam a abordagem do NB aos dados genômicos, mas não discutem explicitamente a distribuição contínua do NB.

Em resumo, não estou surpreso que o artigo que você está estudando tenha obtido resultados razoáveis ​​de uma versão contínua do NB pdf, porque essa também é a nossa experiência. O principal requisito é que modelemos corretamente as médias e as variações, e isso será ótimo, desde que os dados, inteiros ou não, exibam a mesma forma de relação quadrática da média da variação da distribuição NB.

Referências

Robinson, M. e Smyth, GK (2008). Estimativa de amostra pequena de dispersão binomial negativa, com aplicações nos dados do SAGE . Bioestatística 9, 321-332.

Robinson, MD, e Smyth, GK (2007). Testes estatísticos moderados para avaliar diferenças na abundância de tags . Bioinformtics 23, 2881-2887.

McCarthy, DJ, Chen, Y, Smyth, GK (2012). A análise da expressão diferencial de multifactor experiências ARN-Seq com respeito à variação biológica . Nucleic Acids Research 40, 4288-4297.

Chen, Y, Lun, ATL e Smyth, GK (2014). Análise de expressão diferencial de experimentos complexos de RNA-seq usando edgeR. Em: Statistical Analysis of Next Generation Sequence Data, Somnath Datta e Daniel S Nettleton (eds), Springer, Nova York, páginas 51--74. Pré-impressão

Lun, ATL, Chen, Y e Smyth, GK (2016). É licencioso: uma receita para análises de expressão diferencial de experimentos de RNA-seq usando métodos de quase-probabilidade no edgeR. Methods in Molecular Biology 1418, 391-416. Pré-impressão

Chen Y, Lun ATL e Smyth, GK (2016). De leituras a genes e caminhos: análise de expressão diferencial de experimentos de RNA-Seq usando Rsubread e o pipeline de quase-probabilidade edgeR . F1000Research 5, 1438.

Gordon Smyth
fonte
Isso é extremamente útil, @Gordon; muito obrigado por reservar um tempo para escrevê-lo. Também estou trabalhando com dados de RNA-seq, portanto, uma resposta dessa perspectiva é especialmente valiosa (agora adicionei a tag [bioinformática] à pergunta). Seu trabalho é sobre expressão diferencial, enquanto meu trabalho atual é sobre agrupamento (o artigo que eu estava lendo é Harris et al. Sobre interneurônios CA1; biorxiv ). De qualquer forma, deixe-me fazer algumas pequenas perguntas / esclarecimentos. [cont.]
ameba diz Reinstate Monica 5/17
(1) Você disse que o NB contínuo é uma mistura gama de Poissons contínuos. Você poderia expandi-lo um pouco, talvez mostrá-lo um pouco mais explicitamente? Eu acho que isso será útil para o público em geral. Relacionado a isso, nos comentários da minha pergunta, duas pessoas escreveram que o NB contínuo deve ser uma mistura de Gammas com o parâmetro de escala , mas apenas para o número inteiro . Ambas as visões são verdadeiras? (2) Você disse que a função delta no zero não importa para GLMs. Ao mesmo tempo, existe uma grande literatura sobre GLMs com distribuições infladas a zero. Como isso se encaixa? log(p)r
Ameba diz Reinstate Monica
(3) Em seu trabalho prático, você usa ML para estimar todos os parâmetros, incluindo , ou fixa com algum valor específico antecipadamente (talvez o mesmo valor compartilhado para todos os genes?) E depois o mantém constante? Eu acho que isso deve ser muito mais fácil. (Por exemplo, o próprio NB é uma família de dispersão exponencial, mas apenas com fixo .)rrr
ameba diz Reinstate Monica
1
@amoeba Obrigado pela ref biorxiv. (1) A derivação de NB como uma mistura de Poissons é bastante conhecida e está em nossos trabalhos, por exemplo, McCarthy et al. A derivação do NB contínuo segue apenas substituindo Poisson por Poisson contínuo. Devo adicionar isso à minha resposta? Daria muito tempo. Não vejo como o NB contínuo pode ser útil representado como uma mistura de gama. (2) Não, a inflação zero é uma complicação adicional diferente. Evitamos essa complicação em nosso trabalho.
Gordon Smyth
1
@amoeba (3) Estimamos todos os parâmetros. É crucial estimar as dispersões genéticas para obter o controle da taxa de erro, e isso deve ser feito com cuidado especial, porque os tamanhos das amostras geralmente são pequenos e a dimensão dos dados é enorme. Utilizamos um procedimento complexo que envolve a probabilidade de perfil ajustada (pense REML) dentro de cada gene vinculado a um procedimento empírico de Bayes de probabilidade ponderada entre os genes. Os novos NB glms são então ajustados por ML com as dispersões fixadas. Finalmente, os coeficientes são testados usando testes F de quase-probabilidade.
Gordon Smyth
19

Veja este artigo: Chandra, Nimai Kumar e Dilip Roy. Uma versão contínua da distribuição binomial negativa. Statistica 72, n. 1 (2012): 81 .

É definida no artigo como a função de sobrevivência, que é uma abordagem natural desde que o binômio negativo foi introduzido na análise de confiabilidade:

Sr(x)={qxfor r=1k=0r1(x+k1k)pkqxfor r=2,3,
onde e .q=eλ,λ0,p+q=1rN,r>0
Aksakal
fonte
Obrigado! Vou dar uma olhada neste artigo. (Não fui eu quem teve o voto negativo).
ameba diz Reinstate Monica
@amoeba, eu não me preocupo com downvoting, é internet :)
Aksakal
3
(É estranho que esta resposta tenha sido rebaixada ...) +1
whuber
É bom ter essa referência, mas, idealmente, eu gostaria de ver uma discussão mais detalhada aqui. Essa função de sobrevivência está definindo a mesma distribuição que o PDF na minha pergunta? (A propósito, acho um pouco estranho que os autores usem coeficientes binomiais para valores não inteiros de .) Vários comentários acima apontam que essa é uma mistura de distribuições gama (não vejo nenhuma discussão sobre isso em o papel); quais são os parâmetros dessas gamas, quais são os pesos da mistura? As fórmulas NB para a média e a variação são válidas para a versão contínua? x
Ameba diz Restabelecer Monica
@amoeba, o papel tem momentos, eles não são o mesmo que na NB, infelizmente
Aksakal