A distribuição binomial negativa tornou-se um modelo popular para dados de contagem (especificamente o número esperado de leituras de seqüenciamento dentro de uma determinada região do genoma de um determinado experimento) em bioinformática. As explicações variam:
- Alguns o explicam como algo que funciona como a distribuição de Poisson, mas tem um parâmetro adicional, permitindo mais liberdade para modelar a distribuição verdadeira, com uma variação não necessariamente igual à média
- Alguns o explicam como uma mistura ponderada de distribuições de Poisson (com uma distribuição de mistura gama no parâmetro Poisson)
Existe uma maneira de enquadrar essas justificativas com a definição tradicional de uma distribuição binomial negativa como modelagem do número de sucessos dos ensaios de Bernoulli antes de observar um certo número de falhas? Ou devo pensar nisso como uma feliz coincidência que uma mistura ponderada de distribuições de Poisson com uma distribuição de mistura gama tenha a mesma função de massa de probabilidade que o binômio negativo?
poisson-distribution
negative-binomial
bioinformatics
sequence-analysis
Michael Hoffman
fonte
fonte
Respostas:
IMOH, eu realmente acho que a distribuição binomial negativa é usada por conveniência.
Portanto, no RNA Seq, há uma suposição comum de que, se você realizar um número infinito de medições do mesmo gene em um número infinito de repetições, a verdadeira distribuição seria lognormal. Essa distribuição é então amostrada através de um processo de Poisson (com uma contagem), de modo que a verdadeira distribuição de leituras por gene entre as réplicas seria uma distribuição de Poisson-Lognormal.
Mas em pacotes que usamos como EdgeR e DESeq essa distribuição foi modelada como uma distribuição binomial negativa. Isso não é porque os caras que o escreveram não sabiam sobre uma distribuição Poisson Lognormal.
É porque a distribuição Poisson Lognormal é uma coisa terrível de se trabalhar, porque exige integração numérica para fazer os ajustes etc. Por isso, quando você realmente tenta usá-la, às vezes o desempenho é realmente ruim.
Uma distribuição binomial negativa tem uma forma fechada, portanto é muito mais fácil trabalhar com ela e a distribuição gama (a distribuição subjacente) se parece muito com uma distribuição lognormal, pois às vezes parece normal e às vezes tem uma cauda.
Mas neste exemplo (se você acredita na suposição), não pode ser teoricamente correto, porque a distribuição teoricamente correta é o lognormal de Poisson e as duas distribuições são aproximações razoáveis uma da outra, mas não são equivalentes.
Mas ainda acho que a distribuição binomial negativa "incorreta" geralmente é a melhor escolha, porque empiricamente ela fornecerá melhores resultados porque a integração é lenta e os ajustes podem ter um desempenho ruim, especialmente em distribuições com caudas longas.
fonte
Isso explica por que essas distribuições são iguais.
fonte
Só posso oferecer intuição, mas a própria distribuição gama descreve tempos de espera (contínuos) (quanto tempo leva para que um evento raro ocorra). Portanto, o fato de uma mistura distribuída gama de distribuições discretas de poisson resultar em um tempo de espera discreto (tentativas até N falhas) não parece muito surpreendente. Espero que alguém tenha uma resposta mais formal.
Edit: Eu sempre justificava a distância binomial negativa. para seqüenciamento da seguinte maneira: O passo real de sequenciamento é simplesmente amostrar leituras de uma grande biblioteca de moléculas (poisson). No entanto, essa biblioteca é feita a partir da amostra original por PCR. Isso significa que as moléculas originais são amplificadas exponencialmente. E a distribuição gama descreve a soma de k variáveis aleatórias independentes exponencialmente distribuídas, isto é, quantas moléculas na biblioteca após amplificar k moléculas de amostra para o mesmo número de ciclos de PCR.
Daí os modelos binomiais negativos PCR seguidos de sequenciamento.
fonte
Vou tentar dar uma interpretação mecanicista simplista que achei útil ao pensar sobre isso.
Suponha que tenhamos uma cobertura uniforme perfeita do genoma antes da preparação da biblioteca e observamosμ leituras que cobrem um site em média. Digamos que o seqüenciamento é um processo que escolhe um fragmento de DNA original, o coloca em um processo estocástico que passa por PCR, subamostragem etc., e cria uma base do fragmento na frequênciap e uma falha caso contrário. Se a sequência prosseguir atéμ 1 - pp falhas, pode ser modelado com uma distribuição binomial negativa, NB ( μ 1 - pp, P ) .
Calculando os momentos dessa distribuição, obtemos o número esperado de sucessosμ 1 - ppp1 - p= μ como requerido. Para variação do número de sucessos, obtemosσ2= μ ( 1 - p )- 1
- a taxa na qual a preparação da biblioteca falha em um fragmento aumenta a variação na cobertura observada.
Embora o exposto acima seja uma descrição ligeiramente artificial do processo de seqüenciamento, e possa-se fazer um modelo generativo adequado das etapas de PCR, etc., acho que fornece algumas dicas sobre a origem do parâmetro de super-dispersão( 1 - p )- 1 diretamente da distribuição binomial negativa. Prefiro o modelo de Poisson com a taxa integrada como uma explicação geral.
fonte