A distribuição binomial negativa (NB) é definida em números inteiros não negativos e tem função de massa de probabilidade
Faz sentido considerar uma distribuição contínua em reais não negativos definidos pela mesma fórmula (substituindo por )? O coeficiente binomial pode ser reescrito como um produto de , que é bem definido para qualquer k real . Portanto, teríamos um PDF
De maneira mais geral, podemos substituir o coeficiente binomial pelas funções Gamma, permitindo valores não inteiros de :
É uma distribuição válida? Isso tem um nome? Tem algum uso? Talvez seja algum composto ou uma mistura? Existem fórmulas fechadas para média e variância (e a proporcionalidade constante no PDF)?
(Atualmente, estou estudando um artigo que usa o modelo de mistura NB (com r = 2 fixo ) e o ajusta via EM. No entanto, os dados são números inteiros após alguma normalização, ou seja, não números inteiros. a probabilidade e obter resultados muito razoáveis, então tudo parece funcionar muito bem. Achei muito intrigante. Observe que esta pergunta não se refere ao NB GLM.)
distributions
negative-binomial
count-data
continuous-data
bioinformatics
ameba diz Restabelecer Monica
fonte
fonte
Respostas:
Essa é uma pergunta interessante. Meu grupo de pesquisa utiliza a distribuição a que se refere há alguns anos em nosso software de bioinformática disponível ao público. Até onde eu sei, a distribuição não tem um nome e não há literatura. Embora o artigo de Chandra et al (2012) citado por Aksakal esteja intimamente relacionado, a distribuição que eles consideram parece restrita a valores inteiros para e eles não parecem dar uma expressão explícita para o pdf.r
Para lhe dar algumas informações, a distribuição de RNs é muito usada em pesquisas genômicas para modelar dados de expressão gênica decorrentes de RNA-seq e tecnologias relacionadas. Os dados da contagem surgem à medida que o número de sequências de DNA ou RNA é extraído de uma amostra biológica que pode ser mapeada para cada gene. Normalmente, existem dezenas de milhões de leituras de cada amostra biológica que são mapeadas para cerca de 25.000 genes. Alternativamente, pode-se ter amostras de DNA a partir das quais as leituras são mapeadas para janelas genômicas. Nós e outros popularizamos uma abordagem pela qual os NB glms são ajustados às sequências lidas para cada gene, e os métodos empíricos de Bayes são usados para moderar os estimadores de dispersão genéticos (dispersãoϕ=1/r ) Essa abordagem foi citada em dezenas de milhares de artigos de periódicos na literatura genômica, para que você possa ter uma idéia de quanto ela é usada.
Meu grupo mantém o pacote de softwares edgeR R. Alguns anos atrás, revisamos o pacote inteiro para que ele funcionasse com contagens fracionárias, usando uma versão contínua do NB pmf. Simplesmente convertemos todos os coeficientes binomiais no NB pmf em proporções de funções gama e o usamos como um pdf contínuo (misto). A motivação para isso foi que as contagens de leitura de sequência às vezes podem ser fracionárias devido a (1) mapeamento ambíguo de leituras para o transcriptoma ou genoma e / ou (2) normalização de contagens para corrigir efeitos técnicos. Portanto, às vezes, as contagens são esperadas ou estimadas, em vez de observadas. E é claro que as contagens de leitura podem ser exatamente zero, com probabilidade positiva. Nossa abordagem garante que os resultados de inferência de nosso software sejam contínuos nas contagens, correspondendo exatamente aos resultados discretos de NB quando as contagens estimadas forem inteiras.
Até onde eu sei, não há forma fechada para a constante de normalização no pdf, nem formas fechadas para a média ou variância. Quando se considera que não existe uma forma fechada para a integral (a constante de Fransen-Robinson), fica claro que não pode haver para a integral da contínua NB pdf também. No entanto, parece-me que as fórmulas tradicionais de média e variância para o RN devem continuar sendo boas aproximações para o RN contínuo. Além disso, a constante de normalização deve variar lentamente com os parâmetros e, portanto, pode ser ignorada como tendo influência desprezível nos cálculos de máxima verossimilhança.
Pode-se confirmar essas hipóteses por integração numérica. A distribuição de NB surge na bioinformática como uma mistura gama de distribuições de Poisson (consulte o artigo binomial negativo da Wikipedia ou McCarthy et al abaixo). A distribuição NB contínua surge simplesmente substituindo a distribuição Poisson por seu analógico contínuo por pdf para que é uma constante de normalização para garantir que a densidade se integre a 1. Suponha, por exemplo, que . A distribuição de Poisson tem pmf igual ao pdf acima nos números inteiros não negativos e, com
Em nosso pacote edgeR, não precisamos fazer nenhum ajuste pelo fato de haver massa em zero, porque sempre trabalhamos com probabilidade condicional de log ou com diferenças de probabilidade logarítmica e quaisquer funções delta são canceladas nos cálculos. Este é o BTW típico para glms com distribuições de probabilidade mista. Como alternativa, poderíamos considerar a distribuição sem massa em zero, mas com suporte começando em -1/2 em vez de em zero. Qualquer perspectiva teórica leva aos mesmos cálculos na prática.
Embora façamos uso ativo da distribuição NB contínua, não publicamos nada explicitamente. Os artigos citados abaixo explicam a abordagem do NB aos dados genômicos, mas não discutem explicitamente a distribuição contínua do NB.
Em resumo, não estou surpreso que o artigo que você está estudando tenha obtido resultados razoáveis de uma versão contínua do NB pdf, porque essa também é a nossa experiência. O principal requisito é que modelemos corretamente as médias e as variações, e isso será ótimo, desde que os dados, inteiros ou não, exibam a mesma forma de relação quadrática da média da variação da distribuição NB.
Referências
Robinson, M. e Smyth, GK (2008). Estimativa de amostra pequena de dispersão binomial negativa, com aplicações nos dados do SAGE . Bioestatística 9, 321-332.
Robinson, MD, e Smyth, GK (2007). Testes estatísticos moderados para avaliar diferenças na abundância de tags . Bioinformtics 23, 2881-2887.
McCarthy, DJ, Chen, Y, Smyth, GK (2012). A análise da expressão diferencial de multifactor experiências ARN-Seq com respeito à variação biológica . Nucleic Acids Research 40, 4288-4297.
Chen, Y, Lun, ATL e Smyth, GK (2014). Análise de expressão diferencial de experimentos complexos de RNA-seq usando edgeR. Em: Statistical Analysis of Next Generation Sequence Data, Somnath Datta e Daniel S Nettleton (eds), Springer, Nova York, páginas 51--74. Pré-impressão
Lun, ATL, Chen, Y e Smyth, GK (2016). É licencioso: uma receita para análises de expressão diferencial de experimentos de RNA-seq usando métodos de quase-probabilidade no edgeR. Methods in Molecular Biology 1418, 391-416. Pré-impressão
Chen Y, Lun ATL e Smyth, GK (2016). De leituras a genes e caminhos: análise de expressão diferencial de experimentos de RNA-Seq usando Rsubread e o pipeline de quase-probabilidade edgeR . F1000Research 5, 1438.
fonte
Veja este artigo: Chandra, Nimai Kumar e Dilip Roy. Uma versão contínua da distribuição binomial negativa. Statistica 72, n. 1 (2012): 81 .
É definida no artigo como a função de sobrevivência, que é uma abordagem natural desde que o binômio negativo foi introduzido na análise de confiabilidade:
fonte