É possível calcular ou aproximar a probabilidade de algo extremamente improvável acontecer uma vez em uma amostra grande, ou seja, em situações em que a probabilidade é menor que o erro da máquina?
Por exemplo, eu estava tentando calcular a probabilidade aproximada de alguém compartilhar meu genoma. Aparentemente, um genoma individual pode ser comprimido sem perdas para cerca de 4 MB (2 ^ 25 bits). Portanto, a chance de um dos ~ 7 bilhões de seres humanos no planeta compartilhar meu genoma é de cerca de:
.
Ou, usando o método do problema do aniversário , a probabilidade de haver pelo menos duas pessoas com genomas idênticos (vamos ignorar gêmeos e assim por diante) é algo como:
O problema aqui é que os números são tão pequenos ou tão grandes que é impossível adivinhar aproximadamente onde eles estariam. Então, existe alguma maneira de aproximar esses cálculos ou similares?
Percebo que, em alguns casos, as suposições por trás dos problemas podem estar em várias ordens de magnitude, mas mesmo sendo capaz de se aproximar de "mais provável que não" seria interessante.
fonte
Respostas:
Na física, um problema de Fermi é um exercício que pede que você estime uma ordem de magnitude. Você pode fazer o mesmo por probabilidades. Com a prática, sua intuição deve melhorar.
Como Xian comentou, você pode usar logaritmos. Talvez você não consiga ver relance, mas você pode ver que (ou ), o que implica isso. 2 25 ≫ 10 10 log 2 10 ≈ 332225≫1010 225≫10 10 log210 ≈ 33
Em vez de usar fórmulas complicadas para calcular valores exatos desnecessários, use estimativas simples de calcular. Por exemplo, a probabilidade de existir pelo menos uma outra pessoa com seu genoma (ignorando gêmeos) é no máximo o número esperado de pessoas com o mesmo genoma, um produto simples que você deve poder estimar como muito pequeno. Da mesma forma, a probabilidade de que um par de pessoas tenha o mesmo genoma é no máximo o número esperado de pares de pessoas com o mesmo genoma, aproximadamente12225( 7 × 109)
A propósito, não aceito esse modelo de probabilidade para o genoma. Acabei de usar seu modelo para exemplos. Esse modelo preveria que a similaridade genética normalmente encontrada entre irmãos é astronomicamente improvável.
fonte
Eu acho que isso equivale a um problema de estimar as caudas extremas de uma distribuição de probabilidade sem o tamanho da amostra extremamente grande necessário para obter algum ou apenas um pequeno número de valores observados nesses valores extremos. A única maneira de fazer isso é assumindo um modelo paramétrico que "automaticamente" assume uma forma para as caudas das distribuições. Mas se você tiver justificativa para o modelo de probabilidade, poderá obter as estimativas que procura ajustando a densidade da família paramétrica e usando-a para integrar a área da cauda para estimar essa pequena probabilidade. Se a suposição paramétrica estiver incorreta, a estimativa pode estar muito distante (por ordens de magnitude).
fonte