Estou planejando meu casamento. Desejo estimar quantas pessoas virão ao meu casamento. Eu criei uma lista de pessoas e a chance de elas comparecerem em porcentagem. Por exemplo
Dad 100%
Mom 100%
Bob 50%
Marc 10%
Jacob 25%
Joseph 30%
Eu tenho uma lista de cerca de 230 pessoas com porcentagens. Como posso estimar quantas pessoas vão ao meu casamento? Posso simplesmente somar as porcentagens e dividi-las por 100? Por exemplo, se eu convido 10 pessoas com 10% de chance de chegar, posso esperar uma pessoa? Se eu convido 20 pessoas com 50% de chance de comparecer, posso esperar 10 pessoas?
ATUALIZAÇÃO: 140 pessoas vieram ao meu casamento :). Usando as técnicas descritas abaixo, previ cerca de 150. Não é muito ruim!
probability
Behacad
fonte
fonte
Respostas:
Supondo que as decisões das pessoas convidadas para ir ao casamento sejam independentes, o número de convidados que comparecerão ao casamento pode ser modelado como a soma das variáveis aleatórias de Bernoulli que não têm necessariamente probabilidades idênticas de sucesso. Isso corresponde à distribuição binomial de Poisson .
Seja uma variável aleatória correspondente ao número total de pessoas que comparecerão ao seu casamento dentre pessoas convidadas. O número esperado de participantes é realmente a soma das probabilidades individuais de '' apresentação '' , que é A derivação dos intervalos de confiança não é direta, dada a forma da função de massa de probabilidade . No entanto, eles são fáceis de aproximar com simulações de Monte Carlo .N p i E ( X ) = N ∑ i = 1 p i .X N pEu
A figura a seguir mostra um exemplo da distribuição do número de participantes do casamento com base em 10.000 cenários simulados (à direita), usando algumas probabilidades falsas de apresentação para as 230 pessoas convidadas (à esquerda). O código R usado para executar esta simulação é mostrado abaixo; fornece aproximações de intervalos de confiança.
fonte
j
, eu gero o número de "apresentações" para cada um dos 20 grupos de probabilidades usando uma distribuição binomial e a probabilidade de aparecer nesse grupo.Como foi apontado, as expectativas simplesmente aumentam.
No entanto, sabendo que a expectativa não é muito útil, você também precisa ter uma noção da provável variação em torno dela.
Você precisa se preocupar com três coisas:
variação nos indivíduos em torno de suas expectativas (uma pessoa com 60% de chance de chegar na verdade não atinge sua expectativa; ela está sempre acima ou abaixo dela)
dependência entre pessoas. Os casais que podem vir ambos tendem a comparecer ou não. As crianças pequenas não comparecem sem os pais. Em alguns casos, algumas pessoas podem evitar a vinda se souberem que outra pessoa estará lá.
erro na estimativa das probabilidades. Essas probabilidades são apenas suposições; convém considerar o efeito de suposições um pouco diferentes (talvez as avaliações de alguém sobre esses números)
O primeiro é passível de cálculo, por aproximação normal ou por simulação. O segundo pode ser simulado sob várias suposições, específicas para as pessoas ou considerando alguma distribuição de dependências. (O terceiro item é mais difícil.)
Editado para responder às perguntas de acompanhamento nos comentários:
Se eu entendo o seu fraseado corretamente, para a família de 4, você tem 50% de chance de cada uma das 4 pessoas ou nenhuma vir. Esse é um número esperado de 2, certamente, mas você também gostaria de ter uma idéia da variabilidade em torno da expectativa. Nesse caso, você provavelmente deseja manter a situação real de 50% de 0/50% de 4.
Se você puder particionar todos em grupos independentes, uma boa primeira aproximação (com muitos desses grupos) seria adicionar os meios e as variações entre os grupos independentes e tratar a soma como normal (talvez com correção de continuidade). Uma abordagem mais precisa seria simular o processo ou calcular a distribuição exatamente via convolução numérica; Embora as duas abordagens sejam diretas, esse é um nível desnecessário de precisão para esta aplicação em particular, já que já existem muitas camadas de aproximação - é como dizer as dimensões de uma sala ao pé mais próximo e calcular a quantidade de tinta necessária ao mililitro mais próximo - a precisão adicional é inútil.
Imagine (por simplicidade), tivemos quatro grupos:
1) grupo A (1 indivíduo) - 70% de chance de comparecimento
2) grupo B (1 indivíduo) - 60% de chance de comparecimento
3) grupo C (família de 4) - 0: 0,5 4: 0,5 (se alguém ficar em casa, ninguém virá)
4) grupo D (casal de 2) - 0: 0,4 1: 0,1 2: 0,5 (ou seja, 50% de chance de ambos, mais 10% de chance de que exatamente um venha, por exemplo, se o outro tiver compromissos de trabalho ou estiver doente)
Em seguida, obtemos os seguintes meios e variações:
Portanto, uma aproximação normal será bastante difícil nesse caso, mas sugeriria que mais de 7 pessoas seriam muito improváveis (da ordem de 5%) e 6 ou menos ocorreriam aproximadamente 75-80% das vezes.
[Uma abordagem mais precisa seria simular o processo, mas no problema completo, e não no exemplo de corte, isso provavelmente é desnecessário, pois já existem tantas camadas de aproximação.]
Depois de ter sua distribuição combinada que incorpora essas dependências de grupo, você poderá aplicar todas as fontes de dependência conjunta geral (como condições meteorológicas severas) - ou pode simplesmente garantir ou mesmo ignorar tais eventualidades, dependendo das circunstâncias .
fonte
(Ignore meu comentário anterior sobre isso - acabei de perceber que estava confundindo a expectativa com outra coisa.) Como você está essencialmente tentando encontrar a expectativa do número de pessoas que aparecem, é possível adicionar teoricamente a probabilidade de cada pessoa mostrar pronto para fazê-lo.
No entanto, isso fornece apenas o valor esperado - sem outras suposições, parece difícil estimar coisas como a variação de pessoas que aparecem, particularmente porque é bastante justo supor que a pessoa A que aparece não é necessariamente independente da pessoa B que aparece.
Além disso, aqui está um artigo da BBC vagamente relevante.
fonte
Para grandes números, 80% é o que você esperaria. Pode ser uma situação em que uma análise detalhada proposta inclua apenas erros nos cálculos.
Por exemplo, o comparecimento potencial de Marc é realmente 1/3 do de Joseph? E Joseph é realmente 30%, ou pode ser 25%? As coisas acontecem quando você alcança grandes números que simplesmente tornam 80% mais válidos do que toda essa análise. Acabei de voltar de um casamento. 550 convidados. 452 compareceram. Para planejar o salão e começar a conversar com o fornecedor, a estimativa inicial de 440 foi boa.
Posso oferecer uma linha da minha torrada para o casal? "Lembre-se, se sua esposa é feliz, mas você não é feliz, você ainda é muito mais feliz do que se sua esposa é infeliz, mas você é feliz."
fonte
Como estatístico que acabou de se casar, vou lhe dizer que JoeTaxpayer tem a resposta certa. O número de 80% me parece um pouco alto, embora possa ser preciso se a maioria das pessoas for local (o nosso foi um casamento de destino e chegamos perto de 65%).
Mas, no entanto, você está assumindo muita variabilidade nas probabilidades anteriores às quais as pessoas assistem, acho que existe mais do que realmente existe. Supondo que você não convide pessoas que não gostam de você ativamente, você deve assumir que quase todo mundo virá para quem está ao seu alcance e eles não terão um conflito (em um sentido amplo), mas pelo menos 10 a 20% Terá algo que os impede de participar. Para quem precisa viajar, isso aumenta o tempo e o dinheiro necessários para que 30-35% dos viajantes não atendam (dependendo da distância). Caso contrário, mantenha as probabilidades constantes (mesmo que seus pais digam "ah, o tal não vai voar até Austin, só queremos convidá-los ..."). Se você está tendo uma recepção divertida, especialmente com um bar aberto, as pessoas geralmente não a ignoram, a menos que tenham que fazê-lo.
De qualquer forma, parabéns por se casar. Agora, quanto à probabilidade de você continuar casado, esta é sempre uma boa leitura: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf
:-)
fonte
Adicione todas as probabilidades, esse é o número esperado de pessoas que virão.
Obviamente, estamos assumindo que se alguém vem ou não, não depende da presença de outras pessoas. Esta suposição está simplesmente errada. Considere casais, eles são altamente correlacionados.
fonte
Para o meu casamento, fiz duas listas - com probabilidade de participar (80%) e improvável de participar (20%). Independentemente de qualquer avaliação mais refinada, por qualquer motivo, designei todos os convidados para um dos dois grupos. Eu estava fora por 2 pessoas. N = 1. Puramente heurístico.
fonte
Percebo que ninguém apontou que você não precisa dividir por 100. Suas porcentagens podem ser vistas como partes esperadas de uma pessoa, com o entendimento de que, como o gato de Schrödinger, você não receberá partes de uma pessoa em presença ou não, mas o estado de presença de cada pessoa será totalmente resolvido no momento do evento.
Como o intervalo de suas porcentagens varia de 0% (nenhuma pessoa aparece) a 100% (toda a pessoa aparece), em seus dois exemplos envolvendo 10 e 20 pessoas, você resumiu o valor esperado para a parte de cada pessoa para aparecer e conseguiu um número cujas unidades eram "pessoas".
A equação de destaque na excelente resposta do QuantIbex mostra que a soma das porcentagens resulta no número esperado de pessoas no evento, sem divisão envolvida.
fonte