Apostei com um colega de trabalho que, em 50 jogos de pingue-pongue (primeiro a ganhar 21 pontos, a vitória por 2), vencerei todos os 50. Até agora, jogamos 15 jogos e, em média, ganho 58% dos os pontos, mais eu ganhei todos os jogos até agora. Então, estamos nos perguntando se eu tenho 58% de chance de ganhar um ponto e ele tem 42% de chance de ganhar um ponto, qual é a porcentagem de chance de eu ganhar o jogo? Existe uma fórmula na qual possamos conectar a diferença% de chances?
Pesquisamos no Google todo e até perguntamos aos cientistas de dados da nossa empresa, mas não conseguimos encontrar uma resposta direta.
Edit: Uau, estou impressionado com a profundidade das respostas. Obrigado a todos vocês!!! Caso as pessoas estejam curiosas, tenho uma atualização de como está minha aposta: agora ganhei 18 dos 50 jogos, então preciso vencer mais 32 jogos. Ganhei 58,7% de todos os pontos e, portanto, meu oponente ganhou 41,3% de pontos. O desvio padrão para o meu oponente é 3,52, a pontuação média é 14,83 e a mediana é 15,50. Abaixo está uma captura de tela da pontuação de cada jogo até agora. Posso continuar atualizando conforme a aposta, se as pessoas estiverem interessadas.
Edição 2 : Infelizmente, só conseguimos jogar mais alguns jogos, abaixo estão os resultados. Vou continuar substituindo a imagem para não ter um monte de capturas de tela da partitura.
Atualização final : Finalmente perdi para o meu colega de trabalho no jogo # 28. Ele me venceu 21-13. Obrigado por toda a sua ajuda!
fonte
Respostas:
A análise é complicada pela perspectiva de que o jogo entre em "horas extras" para vencer por uma margem de pelo menos dois pontos. (Caso contrário, seria tão simples quanto a solução mostrada em https://stats.stackexchange.com/a/327015/919 .) Vou mostrar como visualizar o problema e usá-lo para dividi-lo em contribuições prontamente computadas para a resposta. O resultado, embora um pouco confuso, é gerenciável. Uma simulação confirma sua correção.
Seja sua probabilidade de ganhar um ponto.p Suponha que todos os pontos sejam independentes. A chance de você ganhar um jogo pode ser dividida em eventos (sem sobreposição), de acordo com quantos pontos seu oponente tem no final, assumindo que você não faça horas extras ( ) ou faça horas extras. Neste último caso, é (ou se tornará) óbvio que em algum momento a pontuação foi de 20 a 20.0 , 1 , ... , 19
Há uma boa visualização. Deixe as pontuações durante o jogo serem plotadas como pontos que x é a sua pontuação e y é a pontuação do seu oponente. À medida que o jogo se desenrola, as pontuações se movem ao longo da rede inteira no primeiro quadrante, começando em ( 0 , 0 ) , criando um caminho para o jogo . Termina na primeira vez que um de vocês marca pelo menos 21 e tem uma margem de pelo menos 2 . Esses pontos vencedores formam dois conjuntos de pontos, o "limite absorvente" desse processo, onde o caminho do jogo deve terminar.(x,y) x y (0,0) 21 2
Esta figura mostra parte do limite absorvente (que se estende infinitamente para cima e para a direita) junto com o caminho de um jogo que passou para a prorrogação (com uma perda para você, infelizmente).
Vamos contar. O número de maneiras pelas quais o jogo pode terminar com pontos para o seu oponente é o número de caminhos distintos na rede inteira de pontuações ( x , y ) , começando na pontuação inicial ( 0 , 0 ) e terminando na penúltima pontuação ( 20 , y ) . Esses caminhos são determinados por qual dos 20 + y pontos no jogo que você ganhou. Eles correspondem, portanto, aos subconjuntos de tamanho 20 dos números 1 , 2 , … , 20 +y (x,y) (0,0) (20,y) 20+y 20 1,2,…,20+y 21py1-py(20+y20) 21 p y 1−p y
Da mesma forma, existem maneiras de chegar a representando o empate 20-20. Nesta situação, você não tem uma vitória definitiva. Podemos calcular a chance de sua vitória adotando uma convenção comum: esqueça quantos pontos foram marcados até agora e comece a rastrear o diferencial de pontos. O jogo tem um diferencial de e termina quando atinge ou , passando necessariamente por ao longo do caminho. Seja a chance de ganhar quando o diferencial for .(20+2020) (20,20) 0 +2 −2 ±1 g(i) i∈{−1,0,1}
Como sua chance de ganhar em qualquer situação é , temosp
A solução exclusiva para este sistema de equações lineares para o vetor implica(g(−1),g(0),g(1))
Essa é, portanto, sua chance de ganhar uma vez alcançada (o que ocorre com uma chance de ).(20,20) (20+2020)p20(1−p)20
Consequentemente, sua chance de ganhar é a soma de todas essas possibilidades disjuntas, iguais a
O material dentro dos parênteses à direita é um polinômio na . (Parece que seu grau é , mas todos os termos principais são cancelados: seu grau é ).p 21 20
Quando , a chance de vitória é próxima dep=0.58 0.855913992.
Você não deve ter problemas para generalizar essa análise para jogos que terminam com qualquer número de pontos. Quando a margem exigida é maior que o resultado fica mais complicado, mas é igualmente simples.2
Aliás , com essas chances de ganhar, você tinha chance de ganhar os primeiros jogos. Isso não é inconsistente com o que você denuncia, o que pode nos encorajar a continuar supondo que os resultados de cada ponto sejam independentes. Assim, projetaríamos que você tem uma chance de(0.8559…)15≈9.7% 15
de vencer todos os jogos restantes , supondo que eles procedam de acordo com todas essas premissas. Não parece uma boa aposta a menos que o pagamento seja grande!35
Eu gosto de verificar trabalhos como este com uma simulação rápida. Aqui está o
R
código para gerar dezenas de milhares de jogos em um segundo. Assume-se que o jogo terminará em 126 pontos (poucos jogos precisam continuar por tanto tempo, portanto essa suposição não tem efeito material nos resultados).Quando eu executei isso, você venceu em 8.570 casos das 10.000 iterações. Um escore Z (com aproximadamente uma distribuição Normal) pode ser calculado para testar esses resultados:
O valor de nesta simulação é perfeitamente consistente com o cálculo teórico anterior.0.31
Apêndice 1
À luz da atualização da pergunta, que lista os resultados dos primeiros 18 jogos, aqui estão as reconstruções dos caminhos do jogo consistentes com esses dados. Você pode ver que dois ou três dos jogos estavam perigosamente perto de perdas. (Qualquer caminho que termine em um quadrado cinza claro é uma perda para você.)
Os usos potenciais desta figura incluem a observação:
Os caminhos concentram-se em torno de uma inclinação dada pela razão 267: 380 da pontuação total, igual a aproximadamente 58,7%.
A dispersão dos caminhos ao redor dessa inclinação mostra a variação esperada quando os pontos são independentes.
Se os pontos são feitos em faixas, os caminhos individuais tendem a ter longos trechos verticais e horizontais.
Em um conjunto mais longo de jogos semelhantes, espere ver caminhos que tendem a permanecer dentro da faixa colorida, mas também espere que alguns se estendam além dela.
A perspectiva de um jogo ou dois cujo caminho esteja geralmente acima desse spread indica a possibilidade de seu oponente vencer um jogo, provavelmente mais cedo ou mais tarde.
Apêndice 2
O código para criar a figura foi solicitado. Aqui está (limpo para produzir um gráfico um pouco melhor).
fonte
r code
divulgação da implementação? Muito Obrigado.Usando a distribuição binomial e assumindo que cada ponto é independente:
A probabilidade de jogadores chegarem a nos primeiros pontos (levando em conta o fato de que o último ponto deve ser ganho) é58% 21 40 ∑40n=21(n−120)0.58210.42n−21 =∑40k=21(40k)0.58k0.4240−k ≈0.80695
A probabilidade de jogadores receberem dos pontos jogados é o binômio . Com essa condição, a probabilidade de o jogador de vencer com a margem de dois pontos é58% 20 40 (4020)0.58200.4220≈0.074635 58% 0.5820.582+0.422≈0.656006
Portanto, a probabilidade geral que o jogador de vence é de cerca de0,80695 + 0,074635 × 0,656006 ≈ 0,855958% 0.80695+0.074635×0.656006 ≈0.8559
A probabilidade de o jogador de vencer os primeiros jogos é então de que é bastante improvável. A probabilidade de o jogador de vencer os jogos finais é de cerca de que é muito improvável. 15 0,85559 15 ≈ 0,0969 58 % 35 0,85559 35 ≈ 0,004358% 15 0.8555915≈0.0969 58% 35 0.8555935≈0.0043
fonte
Eu fui com uma resposta computacional. Aqui está uma função R que simula um jogo de pingue-pongue em que o vencedor precisa vencer por 2. O único argumento é a probabilidade de você ganhar um ponto. Ele retornará a pontuação final desse jogo:
Vamos primeiro garantir que ele funcione, simulando 10.000 jogos em que você tem 50% de chance de ganhar cada ponto. Devemos observar que sua porcentagem de vitórias é de cerca de 50%:
Isso retorna 0,4955, sobre o que esperaríamos. Então, vamos conectar seus 58%:
Isso retorna 0,8606. Então você tem cerca de 86,06% de chance de ganhar um jogo.
Agora podemos simular 35 lotes de jogos e ver quantas vezes você venceria todos os 35:
Isso retorna 0,0000, o que significa que você tem cerca de 0,37% de chance de ganhar nos próximos 35 jogos. Isso pressupõe que todos os jogos e todos os pontos são independentes um do outro. Você pode programar isso explicitamente na função acima, se quiser.
Nota: estou fazendo isso em tempo real. Tenho certeza de que há uma maneira mais eficiente computacionalmente de programar isso.
fonte
pbetterwins <- pbinom(19,40,0.42) + dbinom(20,40,0.42) * 0.58^2/(0.58^2+0.42^2); pbetterwins; pbetterwins^35
um cálculo usando a distribuição binomial. Perto o suficiente para a sua simulaçãoDevemos assumir que a chance de vencer 58% é fixa e que os pontos são independentes?
Acredito que a resposta de Whuber seja boa e lindamente escrita e explicada, quando se considera que cada ponto é independente do próximo . No entanto, acredito que, na prática, é apenas um ponto de partida interessante (teórico / idealizado). Imagino que, na realidade, os pontos não sejam independentes um do outro, e isso pode tornar mais ou menos provável que seu oponente colega de trabalho consiga uma vitória pelo menos uma vez em cada 50.
No começo, imaginei que a dependência dos pontos seria um processo aleatório , ou seja, não controlado pelos jogadores (por exemplo, quando alguém está ganhando ou perdendo jogando de forma diferente), e isso deve criar uma maior dispersão dos resultados, beneficiando o jogador menor a obter este ponto em cinquenta.
Um segundo pensamento, no entanto, pode sugerir o oposto : o fato de você já ter "alcançado" algo com 9,7% de chance pode dar algum (mas apenas ligeiro) benefício, do ponto de vista bayesiano, a idéias sobre mecanismos favoráveis que levam você a ganhe mais de 85% de probabilidade de ganhar um jogo (ou pelo menos torne menos provável que seu oponente tenha uma probabilidade muito maior que 15%, conforme discutido nos dois parágrafos anteriores). Por exemplo, pode ser que você marque melhor quando sua posição é menos boa (não é estranho para as pessoas que pontuam muito mais diferentes em pontos de jogo, a favor ou contra, do que em pontos regulares). Você pode melhorar as estimativas dos 85% levando em consideração essas dinâmicas e, possivelmente, você tem mais de 85% de probabilidade de ganhar um jogo.
De qualquer forma, pode ser muito errado usar essa estatística simples de pontos para fornecer uma resposta. Sim, você pode fazê-lo, mas não será correto, pois as premissas (independência de pontos) não são necessariamente corretas e influenciam muito a resposta . A estatística 42/58 é mais informações, mas não sabemos muito bem como usá-la (a exatidão do modelo) e o uso das informações pode fornecer respostas com alta precisão que ela realmente não possui.
Exemplo
Exemplo: um modelo igualmente razoável com um resultado completamente diferente
Portanto, a pergunta hipotética (assumindo pontos independentes e probabilidades conhecidas, teóricas para esses pontos) é interessante por si só e pode ser respondida, mas apenas para ser irritante e cético / cínico; uma resposta ao caso hipotético não se relaciona muito com o problema subjacente / original e pode ser por isso que os estatísticos / cientistas de dados da sua empresa relutam em fornecer uma resposta direta.
Apenas para dar um exemplo alternativo (não necessariamente melhor) que fornece uma declaração confusa (contra) : 'Q: qual é a probabilidade de ganhar todo o total de 50 jogos se eu já venci 15?' Se não começarmos a pensar que 'os pontos 42/58 são relevantes ou nos dão melhores previsões', começaríamos a fazer previsões de sua probabilidade de ganhar o jogo e previsões de ganhar outros 35 jogos apenas com base nos ganhos anteriormente ganhos. 15 jogos:
o que significa que eu não seria tão pessimista quanto a previsão direta de 0,432%. O fato de você já ter ganho 15 jogos deve aumentar a probabilidade de ganhar os próximos 35 jogos.
Nota com base nos novos dados
Com base nos seus dados para os 18 jogos, tentei ajustar um modelo beta-binomial. Variando e e calculando as probabilidades de obter uma pontuação i, 21 (via i, 20) ou uma pontuação 20,20 e, em seguida, some seus logs para uma pontuação de probabilidade de log.β = ( 1 - μ ) να=μν β=(1−μ)ν
Isso mostra que um parâmetro muito alto (pouca dispersão na distribuição beta subjacente) tem uma probabilidade mais alta e, portanto, provavelmente há pouca dispersão excessiva. Isso significa que os dados não sugerem que é melhor usar um parâmetro variável para sua probabilidade de ganhar um ponto, em vez de sua chance fixa de 58% de ganhar. Esses novos dados estão fornecendo suporte extra para a análise de Whuber, que assume pontuações com base em uma distribuição binomial. Mas é claro que isso ainda pressupõe que o modelo é estático e também que você e seu colega de trabalho se comportam de acordo com um modelo aleatório (no qual todos os jogos e pontos são independentes).ν
Estimativa de probabilidade máxima para parâmetros de distribuição beta no lugar de 58% de chance de vitória fixa:
P: como leio o gráfico "LogLikelihood for parameters mu and nu"?
UMA:
código / computação para o gráfico 1
código / computação para o gráfico 2
fonte
Muito esforço poderia ser gasto em um modelo perfeito. Mas, às vezes, um modelo ruim é melhor. E nada diz um modelo ruim como o teorema do limite central - tudo é uma curva normal.
Vamos ignorar "horas extras". Modelaremos a soma dos pontos individuais como uma curva normal. Vamos modelar jogando 38 rodadas e quem tiver mais pontos ganha, em vez do primeiro a 20. Isso é bastante parecido com o jogo!
E, cegamente, afirmo que chegamos perto da resposta certa.
Seja a distribuição de um ponto. tem valor 1 quando você obtém um ponto e 0 quando não obtém.XX X
Então = ~ e = = ~ .E(X) 0.58 Var(X) E(X)∗(1−E(X)) 0.24
Se são pontos independentes, então são os pontos que você recebe após jogar 38 rodadas.Xi ∑38i=1Xi
e = = ~√SD(∑38i=1Xi) 3,0238∗Var(X))−−−−−−−−−−−√ 3.02
Em nosso modelo bruto, perdemos se e se .∑ 38 i = 1 X i > 19∑38i=1Xi<19 ∑38i=1Xi>19
1,0115,62%22.04−193.02 está a desvios padrão da média, o que resulta em uma probabilidade de de falha após consultar um gráfico de pontuação z .1.01 15.62%
Se compararmos com as respostas mais rigorosas, isso representa cerca de do valor correto.1%
Geralmente, seria melhor examinar a confiabilidade da chance de vitória de vez de um modelo mais rigoroso que assume chance e a modela perfeitamente.58 %58% 58%
fonte
Com base na simulação, parece que a probabilidade de ganhar qualquer jogo é de cerca de 85,5%.
A probabilidade de ganhar exatamente 2 (que é como eu leio o título, mas não parece ser o que você está perguntando) é de cerca de 10,1%.
Execute o código abaixo.
fonte
dbinom(20,40,0.58)*0.58^2/(1-2*0.58+2*0.58^2)+dbinom(20,39,0.58)*0.58
dar 10,04%