Conceito de estatística para explicar por que é menos provável que você jogue o mesmo número de caras que rabos, à medida que o número de lançamentos aumenta?

28

Estou trabalhando para aprender probabilidades e estatísticas lendo alguns livros e escrevendo algum código e, ao simular lançamentos de moedas, notei algo que me pareceu um pouco contrário à intuição ingênua de alguém. Se você jogar uma moeda justa $n$ vezes, a proporção entre cara e coroa converge para 1 quando $n$ aumenta, exatamente como você esperaria. Mas, por outro lado, à medida que $n$ aumenta, parece que você tem menos probabilidade de virar exatamente o mesmo número de caras que as caudas, obtendo uma proporção de exatamente 1.

Por exemplo (alguma saída do meu programa)

For 100 flips, it took 27 experiments until we got an exact match (50 HEADS, 50 TAILS)
For 500 flips, it took 27 experiments until we got an exact match (250 HEADS, 250 TAILS)
For 1000 flips, it took 11 experiments until we got an exact match (500 HEADS, 500 TAILS)
For 5000 flips, it took 31 experiments until we got an exact match (2500 HEADS, 2500 TAILS)
For 10000 flips, it took 38 experiments until we got an exact match (5000 HEADS, 5000 TAILS)
For 20000 flips, it took 69 experiments until we got an exact match (10000 HEADS, 10000 TAILS)
For 80000 flips, it took 5 experiments until we got an exact match (40000 HEADS, 40000 TAILS)
For 100000 flips, it took 86 experiments until we got an exact match (50000 HEADS, 50000 TAILS)
For 200000 flips, it took 96 experiments until we got an exact match (100000 HEADS, 100000 TAILS)
For 500000 flips, it took 637 experiments until we got an exact match (250000 HEADS, 250000 TAILS)
For 1000000 flips, it took 3009 experiments until we got an exact match (500000 HEADS, 500000 TAILS)

Minha pergunta é a seguinte: existe um conceito / princípio na teoria estatística / probabilidade que explique isso? Em caso afirmativo, que princípio / conceito é esse?

Link para o código, se alguém estiver interessado em ver como eu gerou isso.

- editar -

Pelo que vale, aqui está como eu estava explicando isso para mim mesma antes. Se você jogar uma moeda justa $\mathtt n$ vezes e contar o número de caras, estará basicamente gerando um número aleatório. Da mesma forma, se você fizer a mesma coisa e contar as caudas, também estará gerando um número aleatório. Portanto, se você contar os dois, estará gerando dois números aleatórios e, à medida que $\mathtt n$ aumenta, os números aleatórios aumentam. E quanto maiores os números aleatórios que você gerar, maiores serão as chances de eles "sentirem falta" um do outro. O que torna isso interessante é que os dois números estão realmente ligados em certo sentido, com sua proporção convergindo para um à medida que aumentam, mesmo que cada número seja aleatoriamente isolado. Talvez seja só eu, mas acho esse tipo de coisa legal.

probability computational-statistics mindcrime
fonte

Você procura explicações intuitivas ou matemáticas?

Glen_b -Reinstala Monica

1

Ambos, sério. Eu acho que tipo de entender a razão em um sentido intuitivo, mas eu gostaria de entender o raciocínio formal por trás dele.

mindcrime

1

Você sabe como calcular probabilidades binomiais e aplicá-las a esta situação? Caso contrário, procure e calcule os cálculos.

Mark L. Stone

Uau, existem várias boas respostas para esta pergunta. Eu me sinto mal por ter que aceitar um e não o outro. Permitam-me apenas dizer que agradeço todas as respostas e todos que tiveram tempo para compartilhar suas idéias sobre isso.

mindcrime

31

Observe que o caso em que o número de caras e o número de caudas são iguais é o mesmo que "exatamente metade do tempo que você recebe caras". Então, vamos continuar contando o número de cabeças para ver se é metade do número de lançamentos ou comparar equivalentemente a proporção de cabeças com 0,5.

Quanto mais você virar, maior será o número de contagens possíveis de cabeças - a distribuição se tornará mais espalhada (por exemplo, um intervalo para o número de cabeças contendo 95% da probabilidade aumentará à medida que o número de lançamentos aumentar) , então a probabilidade de exatamente meia cabeça tende a diminuir à medida que lançamos mais.

Da mesma forma, a proporção de cabeças terá mais valores possíveis; veja aqui, onde passamos de 100 lançamentos para 200 lançamentos:

Com 100 jogadas, podemos observar uma proporção de 0,49 cabeças ou 0,50 cabeças ou 0,51 cabeças (e assim por diante - mas nada entre esses valores), mas com 200 jogadas, podemos observar 0,49 ou 0,495 ou 0,50 ou 0,50 ou 0,510 - o a probabilidade tem mais valores para "cobrir" e, portanto, cada um tenderá a receber uma parcela menor.

Considere que você tem lançamentos com alguma probabilidade de obter heads (conhecemos essas probabilidades, mas não é crítica para esta parte) e você adiciona mais dois lançamentos. Em arremessos, cabeças é o resultado mais provável ( e desce a partir daí). $2n$ $p_i$ $i$ $2n$ $n$ $p_n>p_{n\pm 1}$

Qual é a chance de ter cabeças em jogadas? $n+1$ $2n+2$

(Marque essas probabilidades com para não confundi-las com as anteriores; também permita que P (HH) seja a probabilidade de "Cabeça, cabeça" nos próximos dois lançamentos, e assim por diante) $q$

$q_{n+1} = p_{n-1} P(HH) + p_n (P(HT)+P(TH)) + p_{n+1} P(TT)$

$\qquad < p_{n} P(HH) + p_n (P(HT)+P(TH)) + p_{n} P(TT) = p_n$

ou seja, se você adicionar mais dois sorteios, a probabilidade do valor médio diminui naturalmente porque calcula a média do valor mais provável (médio) com a média dos valores menores de cada lado)

Portanto, desde que você esteja confortável, o pico estará no meio (por ), A probabilidade de exatamente metade cabeças deve diminuir à medida que aumenta. $2n= 2,4,6,...$ $n$

De fato, podemos mostrar que, para grandes , diminui proporcionalmente com $n$ $p_n$ (sem surpresa, uma vez que a distribuição do número padronizado de cabeças se aproxima da normalidade e a variação da proporção de cabeças diminui com). $\frac{1}{\sqrt{n}}$ $n$

As requested, here's R code that produces something close to the above plot:

 x1 = 25:75
 x2 = 50:150
 plot(x1 / 100, dbinom(x1, 100, 0.5), type = "h",
       main = "Proportion of heads in 100 and 200 tosses",
       xlab = "Proportion of heads",
       ylab = "probability")
 points(x2 / 200, dbinom(x2, 200, 0.5), type = "h", col = 3)

Glen_b -Reinstate Monica
fonte

1

Concordo com o @RustyStatistician acima em relação a 1000 palavras do seu gráfico. Crédito extra para ponteiro para código.

TomRoche #

Figura e explicação impressionantes!

@ Tom incluí o código que faz tudo, exceto tornar o "200" no título verde.

Glen_b -Reinstala Monica

1

@Glen_b Obrigado por mais um ótimo post e pela generosidade de compartilhar as linhas de código. Bela trama! É difícil admitir, mas estou tendo problemas com a expressão matemática do conceito em sua postagem e, em particular, o uso do

maiúsculo .

P

$P$

Antoni Parellada

1

@Antoni

significa apenas "probabilidade de obter 'Cabeça, Cabeça' nos dois lançamentos adicionais". Para obter n + 1 cabeças em lançamentos 2n + 2, por 2n, você deve ter n-1 cabeças (e depois jogou 2 cabeças) ou n cabeças (e depois jogou 1 cabeça) ou n + 1 cabeça (e depois jogou 0 cabeças).

P (H H)

$P(HH)$

Glen_b -Reinstate Monica

19

Bem, sabemos que a Lei dos Grandes Números é o que garante a primeira conclusão de sua experiência, a saber: se você jogar uma moeda justa vezes, a proporção de caras e coroas converge para 1 à medida que aumenta. $n$ $n$

Portanto, não há problemas lá. No entanto, isso sobre toda a Lei dos Grandes Números nos diz neste cenário.

Mas agora, pense sobre esse problema de maneira mais intuitiva. Pense em jogar uma moeda um pequeno número de vezes, por exemplo: . $n=2,4,8,10$

Quando você joga uma moeda duas vezes, ou seja, , pense nos possíveis cenários dos dois lançamentos. (Aqui indicará cabeças e representará caudas). No flip punho você poderia ter começado e na segunda aleta você poderia ter começado . Mas essa é apenas uma das maneiras pelas quais os dois lançamentos poderiam ter surgido. Você também poderia ter chegado no primeiro flip e no segundo flip , e todas as outras combinações possíveis. Portanto, no final do dia, quando você joga 2 moedas, as combinações possíveis que você pode ver nos dois lançamentos são $n=2$ $H$ $T$ $H$ $T$ $T$ $H$ e, portanto, existem 4 cenários possíveis para jogar moedas.

S = {H H, H T, T H, T T}

$S=\{HH,HT,TH,TT\}$

n = 2

$n=2$

Se você fosse para virar 4 moedas, em seguida, o número possível de combinações que você poderia ver seria e assim existem 16 possíveis cenários para inversão moedas.

S = {H H H H, H H H T, H H T H, H T H H, T H H H, H H T T, H T T H, T T H H, T H H T, T H T H, H T H T, H T T T, T H T T, T T H T, T T T H, T T T T}

$S=\{HHHH,HHHT,HHTH,HTHH,THHH,HHTT,HTTH,TTHH,THHT,THTH,HTHT,HTTT,THTT,TTHT,TTTH,TTTT\}$

n = 4

$n=4$

Jogar moedas leva a 256 combinações. $n=8$

O lançamento de moedas leva a 1.024 combinações. $n=10$

E, em particular, inverter qualquer número moedas leva a combinações possíveis. $n$ $2^n$

Agora, vamos tentar abordar esse ponto de vista probabilístico do problema. Olhando para o caso em que , sabemos que a probabilidade de obter exatamente o mesmo número de cara e coroa (ou seja, como você coloca uma razão de exatamente 1) é $n=2$ Quando, sabemos que a probabilidade de obter exatamente o mesmo número de cara e coroa é

P r (Ratio of exactly 1) = \frac{2}{4} = 0.5

$Pr(\text{Ratio of exactly 1})=\frac{2}{4}=0.5$

n = 4

$n=4$

P r (Ratio of exactly 1) = \frac{6}{16} = 0.375

$Pr(\text{Ratio of exactly 1})=\frac{6}{16}=0.375$

E, em geral, como tende a crescer, temos que a probabilidade de obter exatamente o mesmo número de caras e coroas vai para 0. $n$

Em outras palavras, como , temos esse $n\rightarrow\infty$

P r (Ratio of exactly 1) \to 0

$Pr(\text{Ratio of exactly 1})\rightarrow 0$

E assim, para responder sua pergunta. Realmente o que você está observando é apenas uma conseqüência do fato de que haverá muito mais combinações de lançamentos de moedas em que o número de caras e coroas não é igual em comparação com o número de combinações em que são iguais.

Como @ Mark L. Stone sugere, se você se sentir confortável com a fórmula binomial e as variáveis aleatórias binomiais, poderá usá-lo para mostrar o mesmo argumento.

$X$ $n$ $X$ $X\sim Bin(n,p=0.5)$ $p=0.5$

P r (Ratio of exactly 1) = P r (X = \frac{n}{2}) = (\binom{n}{n / 2}) {0.5}^{n / 2} (0.5)^{n - n / 2} = (\binom{n}{n / 2}) {0.5}^{n}

$Pr(\text{Ratio of exactly 1})=Pr\left(X=\frac{n}{2}\right)= {n \choose n/2} 0.5^{n/2}(0.5)^{n-n/2}={n \choose n/2} 0.5^{n}$

$n$ ${n \choose n/2}0.5^n\rightarrow 0$ $n\rightarrow\infty$

fonte

2

{0.5}^{n} \to 0

$0.5^n \to 0$

n \to \infty

$n \to \infty$

(\binom{n}{n / 2})

$\binom{n}{n/2}$

{0.5}^{n} \to 0

$0.5^n \to 0$

n! {0.5}^{n} \to 0

$n! 0.5^n \to 0$ )

Silverfish

@Glen_b Não tenho pontos suficientes para comentar no seu post, mas gráfico incrível!

Obrigado @RustyStatistician, isso ajuda muito. A primeira parte da sua explicação corresponde à maneira como eu estava pensando nela, mas ainda não estou longe o suficiente com minhas estatísticas para saber como resolvê-la usando a distribuição Binomial. Basicamente, li o meu livro uma vez, sem resolver problemas nem nada, e agora vou voltar desde o início e escrever código para explorar vários aspectos do material.

mindcrime

@mindcrime parece ótimo! Ainda bem que pude ajudar.

5

Veja o triângulo de Pascal.

A probabilidade de resultados de troca de moedas é representada pelos números ao longo da linha inferior. O resultado de igual cara e coroa é o número do meio. À medida que a árvore aumenta, o número do meio se torna uma proporção menor da soma da linha inferior.

Joshua O'Brien
fonte

1

Talvez ajude a delinear que isso está relacionado à lei do arco-seno. Ele diz que, para um caminho de resultados, a probabilidade de que o caminho permaneça a maior parte do tempo no domínio positivo ou negativo é muito maior do que está subindo e descendo do que o esperado da intuição . Aqui estão alguns links:

http://www.math.unl.edu/~sdunbar1/ProbabilityTheory/Lessons/BernoulliTrials/ExcessHeads/excessheads.shtml

https://en.wikipedia.org/wiki/Arcsine_law

Karl
fonte

1

Enquanto a proporção de caras e caudas converge para 1, o intervalo de números possíveis se torna maior. (Estou inventando os números). Digamos que para 100 jogadas, a probabilidade é de 90% de que você tenha entre 45% e 55% de cabeças. Isso é 90% que você tem de 45 a 55 cabeças. 11 possibilidades para o número de cabeças. Aproximadamente 9% aproximadamente que você obtém números iguais de cara e coroa.

Digamos que para 10.000 arremessos, a probabilidade é de 95% de que você tenha entre 49% e 51% de cabeças. Portanto, a proporção chegou muito perto de 1. Mas agora você tem entre 4.900 e 5.100 cabeças. 201 possibilidades. A chance de números iguais é de apenas cerca de 0,5%.

E com um milhão de arremessos, você tem certeza de ter entre 49,9% e 50,1% de cabeças. Isso varia de 499.000 a 501.000 cabeças. 2.001 possibilidades. A chance agora caiu para 0,05%.

Ok, a matemática foi inventada. Mas isso deve lhe dar uma idéia sobre o "porquê". Embora a proporção se aproxime de 1, o número de possibilidades se torna maior, de modo que atingir exatamente meia cabeça, meia coroa, se torna cada vez menos provável.

Outro efeito prático: Na prática, é improvável que você tenha uma moeda em que a probabilidade de lançar cabeças seja exatamente de 50%. Pode ser 49,99371% se você tiver uma moeda muito boa. Para um pequeno número de arremessos, isso não faz diferença. Para números grandes, a porcentagem de cabeças convergirá para 49,99371%, e não 50%. Se o número de arremessos for grande o suficiente, arremessar 50% ou mais das cabeças se tornará muito, muito improvável.

gnasher729
fonte

0

Bem, uma coisa a se notar é que, com um número par de jogadas (caso contrário, a probabilidade de jogadas iguais de cara e coroa é exatamente igual a zero), o resultado mais provável será sempre aquele com tantas jogadas de cabeça quanto coroa.

A distribuição de $n$ flips é dado pelos coeficientes do polinômio

(\frac{1 + x}{2})^{n} .

$\bigl(\frac{1+x}2\bigr)^n\qquad .$ Então, mesmo

n

$n$ , a probabilidade é

p_{n} = 2^{- n} (\binom{n}{n / 2}) .

$p_n = 2^{-n}{n \choose n/2}\qquad .$

Usando a aproximação de Stirling para $n!$ , você chega a algo como

p \approx \frac{1}{\sqrt{π n / 2}}

$p \approx\frac1{\sqrt{\pi n/2}}$ pela probabilidade de exatamente

n / 2

$n/2$ cabeças (e correspondentemente coroa) vira para

n

$n$ lançamentos gerais. Portanto, a probabilidade absoluta desse resultado converge para 0, mas muito mais lenta que a maioria dos outros resultados, com os casos extremos de 0 cara (ou alternativamente 0 coroa) sendo

2^{- n}

$2^{-n}$ .

user95629
fonte

2

Sua resposta pode ser melhorada definindo cuidadosamente quantidades em suas expressões. O que é

n

$n$ ? O que é

p

$p$ ?

Sycorax says Reinstate Monica

0

Suppose you flip a coin twice. There are four possible outcomes: HH, HT, TH, and TT. In two of these, you have an equal number of heads and tails, so there's a 50% chance that you get the same number of heads and tails.

Now suppose you flip a coin 4,306,492,102 times. Do you expect a 50 percent chance that you'll wind up with exactly 2,153,246,051 heads and 2,153,246,051 tails?

Daniel McLaury
fonte

No, my intuition told me that the chances of getting an exact match were low, just because the numbers were getting larger. But I wanted to simulate it just to confirm my thought. When I saw that it turned out that way, I was intrigued as to the formal reasoning behind why it is that way. It strikes me as interesting that the resulting ratio is converging towards 1 while simultaneously becoming less likely to be exactly 1.

mindcrime

3

One way of thinking about that is that for large

n

$n$ there are many more ways to be close to 50-50 than there are for small

n

$n$ .

Daniel McLaury

Conceito de estatística para explicar por que é menos provável que você jogue o mesmo número de caras que rabos, à medida que o número de lançamentos aumenta?

Respostas: