Como calcular com pequenas probabilidades e amostras grandes?

8

É possível calcular ou aproximar a probabilidade de algo extremamente improvável acontecer uma vez em uma amostra grande, ou seja, em situações em que a probabilidade é menor que o erro da máquina?

Por exemplo, eu estava tentando calcular a probabilidade aproximada de alguém compartilhar meu genoma. Aparentemente, um genoma individual pode ser comprimido sem perdas para cerca de 4 MB (2 ^ 25 bits). Portanto, a chance de um dos ~ 7 bilhões de seres humanos no planeta compartilhar meu genoma é de cerca de:

(112225)(7×109) .

Ou, usando o método do problema do aniversário , a probabilidade de haver pelo menos duas pessoas com genomas idênticos (vamos ignorar gêmeos e assim por diante) é algo como:

(7×109)!(22257×109)(2225)(7×109)

O problema aqui é que os números são tão pequenos ou tão grandes que é impossível adivinhar aproximadamente onde eles estariam. Então, existe alguma maneira de aproximar esses cálculos ou similares?

Percebo que, em alguns casos, as suposições por trás dos problemas podem estar em várias ordens de magnitude, mas mesmo sendo capaz de se aproximar de "mais provável que não" seria interessante.

naught101
fonte
2
Os logaritmos são apropriados nessas circunstâncias e, se não o suficiente, a aproximação de Stirling o aproxima o suficiente do valor real para avaliar a magnitude da quantidade.
Xi'an

Respostas:

8

Na física, um problema de Fermi é um exercício que pede que você estime uma ordem de magnitude. Você pode fazer o mesmo por probabilidades. Com a prática, sua intuição deve melhorar.

Como Xian comentou, você pode usar logaritmos. Talvez você não consiga ver relance, mas você pode ver que (ou ), o que implica isso. 2 2510 10 log 2 10 33222510102251010log21033

Em vez de usar fórmulas complicadas para calcular valores exatos desnecessários, use estimativas simples de calcular. Por exemplo, a probabilidade de existir pelo menos uma outra pessoa com seu genoma (ignorando gêmeos) é no máximo o número esperado de pessoas com o mesmo genoma, um produto simples que você deve poder estimar como muito pequeno. Da mesma forma, a probabilidade de que um par de pessoas tenha o mesmo genoma é no máximo o número esperado de pares de pessoas com o mesmo genoma, aproximadamente12225(7×109)

12(7×109)22225

A propósito, não aceito esse modelo de probabilidade para o genoma. Acabei de usar seu modelo para exemplos. Esse modelo preveria que a similaridade genética normalmente encontrada entre irmãos é astronomicamente improvável.

Douglas Zare
fonte
Sim, eu sei que o modelo está errado. Mas os irmãos não gêmeos só são susceptíveis de quota de cerca de metade de seus genes (além do mais comum a todos os seres humanos), então eu não tenho certeza que você entende por semelhança genética entre irmãos ..
naught101
Não sei ao certo o que você quer dizer com "cerca da metade", já que o genoma deve ser comprimido. Existem locais onde existem opções e locais onde existem mais de . De qualquer forma, os lugares onde eles não têm uma cópia do cromossomo do mesmo pai ou mãe podem ser os mesmos por acaso, então mais da metade de seus genes deve ser o mesmo, e se você fingir que cada genoma é aleatório, estimará que a chance disso é astronomicamente baixa. Além disso, suponha que não haja crossovers. Então, os irmãos só precisam ganhar lançamentos de moedas para ter o mesmo genoma, não . 2246225
Douglas Zare
Coisas interessantes, mas tudo isso é um pouco tangencial para a pergunta, para a qual meu modelo simplista demais era apenas um exemplo básico. Se você sentir vontade de continuar a discussão genética, poderíamos fazê-lo na sala de chat ..
naught101
1
Isso é todo material básico. Eu só não queria mostrar os cálculos nesse modelo sem apontar que o modelo é ruim.
Douglas Zare
3

Eu acho que isso equivale a um problema de estimar as caudas extremas de uma distribuição de probabilidade sem o tamanho da amostra extremamente grande necessário para obter algum ou apenas um pequeno número de valores observados nesses valores extremos. A única maneira de fazer isso é assumindo um modelo paramétrico que "automaticamente" assume uma forma para as caudas das distribuições. Mas se você tiver justificativa para o modelo de probabilidade, poderá obter as estimativas que procura ajustando a densidade da família paramétrica e usando-a para integrar a área da cauda para estimar essa pequena probabilidade. Se a suposição paramétrica estiver incorreta, a estimativa pode estar muito distante (por ordens de magnitude).

Michael R. Chernick
fonte
Legal, eu não tinha pensado dessa maneira. Não tenho idéia de que tipo de modelo eu usaria para esse tipo de problema.
naught101