9

Um dado de 6 lados é rolado iterativamente. Qual é o número esperado de jogadas necessárias para fazer uma soma maior ou igual a K?

Antes da edição

P(Sum>=1 in exactly 1 roll)=1
P(Sum>=2 in exactly 1 roll)=5/6
P(Sum>=2 in exactly 2 rolls)=1/6
P(Sum>=3 in exactly 1 roll)=5/6
P(Sum>=3 in exactly 2 rolls)=2/6
P(Sum>=3 in exactly 3 rolls)=1/36
P(Sum>=4 in exactly 1 roll)=3/6
P(Sum>=4 in exactly 2 rolls)=3/6
P(Sum>=4 in exactly 3 rolls)=2/36
P(Sum>=4 in exactly 4 rolls)=1/216

Após a edição

P(Sum>=1 in atleast 1 roll)=1
P(Sum>=2 in atleast 1 roll)=5/6
P(Sum>=2 in atleast 2 rolls)=1
P(Sum>=3 in atleast 1 roll)=4/6
P(Sum>=3 in atleast 2 rolls)=35/36
P(Sum>=3 in atleast 3 rolls)=1
P(Sum>=4 in atleast 1 roll)=3/6
P(Sum>=4 in atleast 2 rolls)=33/36
P(Sum>=4 in atleast 3 rolls)=212/216
P(Sum>=4 in atleast 4 rolls)=1

Não tenho certeza se isso está correto antes de tudo, mas acho que essa probabilidade está relacionada ao número esperado de rolagens?

Mas não sei como prosseguir. Estou seguindo na direção certa?

self-study mean expected-value dice saddlepoint-approximation Suspeito usual
fonte

Como você obteve ?

P (S \geq 2 in 2 rolls)

$P(S\geq 2 \text{ in 2 rolls})$

Glen_b -Reinstala Monica

@Glen_b Você precisa obter um número menor que 2 no primeiro rolo, que é 1. Portanto, a probabilidade de obter 1 é 1/6 e o segundo rolo pode ser qualquer número. se você obtiver um número maior ou igual a 2 no primeiro rolo, não fará um segundo rolo.

Usual Suspect

11

Ah, eu vejo o que está acontecendo. Você não descreve isso como "P (S \ geq 2 em 2 rolos)"; essa expressão implica que o número de rolos é fixo. O que você deseja é "P (exatamente 2 rolos necessários para obter

)" ou "P (pelo menos 2 rolos necessários para obter

)".

S \geq 2

$S\geq 2$

S \geq 2

$S\geq 2$

Glen_b -Reinstala Monica

@ Glen_b Sim, isso é a confusão. P (exatamente 2 rolos necessários para obter S> 2), eu acho. Tudo o que eu quero calcular é o número esperado de rolagens para atingir uma soma maior que K?

Usual Suspect

@Glen_b devo usar pelo menos ou exatamente para esse fim? E como calcular o número esperado de rolos para uma soma maior como 10000?

Usual Suspect

2

Até agora, são apenas algumas idéias para outra abordagem mais exata, com base na mesma observação que minha primeira resposta. Com o tempo vou estender isso ...

Primeiro, alguma notação. Seja um dado inteiro positivo (grande). Queremos a distribuição de , que é o número mínimo de lança de um dado comuns para obter soma, pelo menos . Então, em primeiro lugar, definimos como o resultado de lance de dados , e . Se pudermos encontrar a distribuição de para todos os , podemos encontrar a distribuição de usando $K$ $N$ $K$ $X_i$ $i$ $X^{(n)}=X_1+\dots+X_n$ $X^{(n)}$ $n$ $N$ e terminamos.

P (N \geq n) = P (X_{1} + \dots + X_{n} \leq K),

$P(N \ge n)= P(X_1+\dots+X_n \le K),$

Agora, os valores possíveis para são e para nesse intervalo, para encontrar a probabilidade , precisamos encontrar o número total de maneiras de escrever como uma soma de exatamente números inteiros, todos no intervalo $X_1+\dots+X_n$ $n,n+1,n+2,\dots,6n$ $k$ $P(X_1+\dots+X_n=k)$ $k$ $n$ . Mas isso é chamado de composição inteira restrita, um problema bem estudado em combinatória. Algumas perguntas relacionadas à matemática SE são encontradas em https://math.stackexchange.com/search?q=integer+compositions $1,2,\dots,6$

Então, pesquisando e estudando essa literatura combinatória, podemos obter resultados precisos e silenciosos. Vou acompanhar isso, mas depois ...

kjetil b halvorsen
fonte

2

Existe uma fórmula simples e fechada em termos das raízes de um polinômio de grau 6.

Na verdade, é um pouco mais fácil considerar um dado justo geral com $d\ge 2$ faces rotuladas com os números $1,2,\ldots, d.$

Vamos $e_k$ ser o número esperado de rolos necessários para igualar ou exceder $k.$ Para $k\le 0,$ $e_k=0.$ Caso contrário, a expectativa é uma mais que a expectativa do número de rolagens para atingir o valor imediatamente anterior, que estaria entre $k-d, k-d+1, \ldots, k-1,$ onde

\begin{matrix} (1) & e_{k} = 1 + \frac{1}{d} (e_{k - d} + e_{k - d + 1} + \dots + e_{k - 1}) . \end{matrix}

$e_k = 1 + \frac{1}{d}\left(e_{k-d} + e_{k-d+1} + \cdots + e_{k-1}\right).\tag{1}$

Essa relação de recorrência linear tem uma solução na forma

\begin{matrix} (2) & e_{k} = \frac{2 k}{d + 1} + \sum_{i = 1}^{d} a_{i} λ_{i}^{k} \end{matrix}

$e_k = \frac{2k}{d+1} + \sum_{i=1}^d a_i \lambda_i^k\tag{2}$

onde $\lambda_i$ são as raízes $d$ complexas do polinômio

\begin{matrix} (3) & T^{d} - \frac{1}{d} (T^{d - 1} + T^{d - 2} + \dots + T + 1) . \end{matrix}

$T^d - \frac{1}{d}(T^{d-1} + T^{d-2} + \cdots + T + 1).\tag{3}$

As constantes de $a_i$ encontram-se aplicando-se a solução para os valores , onde em todos os casos. Isso fornece um conjunto de equações lineares nas constantes e possui uma solução única. Que a solução funciona pode ser demonstrada verificando a recorrência usando o fato de que toda raiz satisfaz $(2)$ $k=-(d-1), -(d-2), \ldots, -1, 0$ $e_k=0$ $d$ $d$ $(1)$ $(3):$

\begin{aligned} 1 + \frac{1}{d} \sum_{j = 1}^{d} e_{k - j} & = 1 + \frac{1}{d} \sum_{j = 1}^{d} (\frac{2 (k - j)}{d + 1} + \sum_{i = 1}^{d} a_{i} λ_{i}^{k - j}) \\ = \frac{2 k}{d + 1} + \sum_{i = 1}^{d} a_{i} λ_{i}^{k - d} [\frac{1}{d} (1 + λ_{i} + \dots + λ_{i}^{d - 1})] \\ = \frac{2 k}{d + 1} + \sum_{i = 1}^{d} a_{i} λ_{i}^{k - d} λ_{i}^{d} \\ = \frac{2 k}{d + 1} + \sum_{i = 1}^{d} a_{i} λ_{i}^{k} = e_{k} . \end{aligned}

$\eqalign{ 1 + \frac{1}{d}\sum_{j=1}^{d} e_{k-j} &= 1 + \frac{1}{d}\sum_{j=1}^{d} \left(\frac{2(k-j)}{d+1} + \sum_{i=1}^d a_i \lambda_i^{k-j}\right) \\ &= \frac{2k}{d+1} + \sum_{i=1}^d a_i \lambda_i^{k-d}\left[\frac{1}{d}(1 + \lambda_i + \cdots + \lambda_i^{d-1})\right] \\ &= \frac{2k}{d+1} + \sum_{i=1}^d a_i \lambda_i^{k-d}\lambda_i^d \\ &= \frac{2k}{d+1} + \sum_{i=1}^d a_i \lambda_i^k = e_k. }$

Esta solução de formulário fechado nos fornece boas maneiras de aproximar a resposta e também avaliar com precisão. (Para valores pequenos a modestos de a aplicação direta da recorrência é uma técnica computacional eficaz.) Por exemplo, com , podemos calcular prontamente $k,$ $d=6$

e_{1 000 000} = 285714.761905 \dots

$e_{1\,000\,000} = 285714.761905\ldots$

Para aproximações, haverá uma maior raiz única assim, eventualmente (para suficientemente grande ), o termo dominará os termos emO erro diminuirá exponencialmente de acordo com a segunda menor norma das raízes. Continuando o exemplo com o coeficiente de é e a próxima menor norma é (Aliás, o outro tende a ser muito próximo de em tamanho.) Assim, podemos aproximar o valor anterior como $\lambda_{+}=1$ $k$ $\lambda_{+}^k$ $d$ $(2).$ $k=6,$ $\lambda_{+}$ $a_{+}=0.4761905$ $0.7302500.$ $a_i$ $1$

e_{1 000 000} \approx \frac{2 \times 10^{6}}{6 + 1} + 0.4761905 = 285714.761905 \dots

$e_{1\,000\,000} \approx \frac{2\times 10^6}{6+1} + 0.4761905 = 285714.761905\ldots$

com um erro da ordem de $0.7302500^{10^6} \approx 10^{-314\,368}.$

Para demonstrar como essa solução é prática, eis o Rcódigo que retorna uma função para avaliar para qualquer (dentro do escopo de cálculos de ponto flutuante de precisão dupla) e não muito grande (será atolado uma vez que ): $e_k$ $k$ $d$ $d\gg 100$

die <- function(d, mult=1, cnst=1, start=rep(0,d)) {
  # Create the companion matrix (its eigenvalues are the lambdas).
  X <- matrix(c(0,1,rep(0,d-1)),d,d+1)
  X[, d] <- mult/d
  lambda <- eigen(X[, 1:d], symmetric=FALSE, only.values=TRUE)$values

  # Find the coefficients that agree with the starting values.
  u <- 2*cnst/(d+1)
  a <- solve(t(outer(lambda, 1:d, `^`)), start - u*((1-d):0))

  # This function assumes the starting values are all real numbers.
  f <- Vectorize(function(i) Re(sum(a * lambda ^ (i+d))) + u*i)

  list(f=f, lambda=lambda, a=a, multiplier=mult, offset=cnst)
}

Como exemplo de seu uso, aqui calcula as expectativas para $k=1,2,\ldots, 16:$

round(die(6)$f(1:10), 3)

1.000 1.167 1.361 1.588 1.853 2.161 2.522 2.775 3.043 3.324 3.613 3.906 4.197 4.476 4.760 5.046

O objeto retornado inclui as raízes e seus multiplicadores para análises adicionais. O primeiro componente da matriz de multiplicadores é o coeficiente útil $\lambda_i$ $a_i$ $a_{+}.$

(Se você está curioso para que dieservem os outros parâmetros , execute die(2, 2, 0, c(1,0))$f(1:10)e veja se reconhece a saída ;-). Essa generalização ajudou no desenvolvimento e no teste da função.)

whuber
fonte

+1. A função diedá um erro para mim: object 'phi' not found.

COOLSerdash 13/09/19

11

@ COOL Obrigado por verificar. Uma mudança de última hora do nome da variável (de phipara a) para corresponder ao texto foi o culpado. Eu o corrigi (e verifiquei).

whuber

1

não há como obter o número exato exato de rolagens em geral, mas para um K.

Seja N o evento de rolagem esperada para obter soma => K.

para K = 1, E (N) = 1

para K = 2, $E(N)=(\frac{5}{6}+2*1)/(\frac{5}{6}+1)=\frac{17}{11}$

e assim por diante.

Será difícil obter E (N) para K. grande, por exemplo, para K = 20 você precisará esperar (4 rolos, 20 rolos)

O Teorema do Limite Central será mais beneficiado com alguma% de confiança. como sabemos que a ocorrência é distribuída uniformemente, para grandes valores de K. (Distribuição Normal)

K (S u m) f o l l o w s N (3.5 N, \frac{35 N}{12})

$K(Sum)~follows~N(3.5N,\frac{35N}{12})$

Agora você precisa de "N" para obter Sum pelo menos K .... nós o convertemos na distribuição normal padrão. onde % Você pode obter valores Z em "Tabelas normais padrão" ou daqui, por exemplo

\frac{K - 3.5 N}{\sqrt{\frac{35 N}{12}}} = Z_{α}

$\frac{K-3.5N}{\sqrt{\frac{35N}{12}}}=Z_\alpha$

α = 1 - c o n f i d e n c e

$\alpha=1-confidence$

Z_{0.01} = 2.31, Z_{0.001} = 2.98

$Z_{0.01}=2.31,Z_{0.001}=2.98$

Você conhece K, Z (com qualquer erro) ........, então você pode obter N = E (N) com alguma% de confiança resolvendo a equação.

Hemant Rupani
fonte

2

Como você calculou essas probabilidades? Como você chegou à equação E (N)?

Usual Suspect

@UsualSuspect P (Soma> = 2 em 1 rolo) = 5/6 (você sabe) P (Soma> = 2 em 2 rolos) = 1 (porque você deve obter a soma de pelo menos 2 de 2 rolos) e para E (N ) ......... é apenas uma média esperada

Hemant Rupani

Desculpe, eu não mencionei. Não é pelo menos, exatamente 2 rolos. Eu entendi a equação E (N) agora.

Usual Suspect

@UsualSuspect ohh! a propósito, se você precisar de E (N) para qualquer K em particular, então eu posso fazê-lo :).

amigos estão dizendo sobre hemant

preciso de k = 20 ek = 10000. É melhor se você me explicar, em vez de dar respostas diretas.

Usual Suspect

0

Vou dar um método para encontrar uma solução aproximada. Primeiro, seja a variável aleatória, "resultado do lançamento com os dados" e seja o número de jogadas necessárias para atingir uma soma pelo menos . Então temos que , para encontrar a distribuição de , precisamos encontrar as convoluções das distribuições do para , para todos os . Essas convulsões podem ser encontradas numericamente, mas para grandes $X_i$ $i$ $N$ $k$

P (N \geq n) = P (X_{1} + X_{2} + \dots + X_{n} \leq k)

$P(N \ge n) = P(X_1+X_2+\dots+X_n \le k)$

N

$N$

X_{i}

$X_i$

i = 1, 2, \dots, n

$i=1,2,\dots,n$

n

$n$

n

$n$ pode ser muito trabalhoso, então tentamos aproximar a função de distribuição cumulativa para as convoluções, usando métodos de ponto de sela. Para outro exemplo de métodos de ponto de sela, consulte minha resposta à soma genérica de variáveis aleatórias gama

Usaremos a aproximação de Lugannini-Rice para o caso discreto e segue R Butler: "Aproximações do ponto de sela com aplicações", página 18 (segunda correção de continuidade). Primeiro, precisamos da função geradora de momento do , que é Então a função geradora cumulante para a soma de dados independentes se torna e também precisamos das primeiras derivadas de , mas as encontraremos simbolicamente usando R. O código é o seguinte: $X_i$

M (T) = E e^{t X_{i}} = \frac{1}{6} (e^{t} + e^{2 t} + e^{3 t} + e^{4 t} + e^{5 t} + e^{6 t})

$M(T) = E e^{tX_i}= \frac16 (e^t+e^{2t}+e^{3t}+e^{4t}+e^{5t}+e^{6t})$

n

$n$

K_{n} (t) = n \cdot l o g (\frac{1}{6} \sum_{i = 1}^{6} e^{i t})

$K_n(t)=n \cdot log(\frac16\sum_{i=1}^6 e^{it})$

K

$K$

 DD <- function(expr, name, order = 1) {
        if(order < 1) stop("'order' must be >= 1")
        if(order == 1) D(expr, name)
        else DD(D(expr, name), name, order - 1)
     }

make_cumgenfun  <-  function() {
    fun0  <-  function(n, t) n*log(mean(exp((1:6)*t)))
    fun1  <-  function(n, t) {}
    fun2  <-  function(n, t) {}
    fun3  <-  function(n, t) {}
    d1  <-  DD(expression(n*log((1/6)*(exp(t)+exp(2*t)+exp(3*t)+exp(4*t)+exp(5*t)+exp(6*t)))),  "t", 1)
    d2  <-  DD(expression(n*log((1/6)*(exp(t)+exp(2*t)+exp(3*t)+exp(4*t)+exp(5*t)+exp(6*t)))),  "t", 2)
    d3  <-  DD(expression(n*log((1/6)*(exp(t)+exp(2*t)+exp(3*t)+exp(4*t)+exp(5*t)+exp(6*t)))),  "t", 3)
    body(fun1)  <-  d1
    body(fun2)  <-  d2
    body(fun3)  <-  d3
    return(list(fun0,  fun1,  fun2,  fun3))
}

Em seguida, devemos resolver a equação do ponto de sela.

Isso é feito pelo seguinte código:

funlist  <-  make_cumgenfun()

# To solve the saddlepoint equation for n,  k:
solve_speq  <-   function(n, k)  {# note that n+1 <= k <= 6n is needed
    Kd  <-  function(t) funlist[[2]](n, t)
    k  <-  k-0.5
    uniroot(function(s) Kd(s)-k,  lower=-100,  upper=1,  extendInt="upX")$root
}

Observe que o código acima não é muito robusto, pois valores de distantes em qualquer parte da distribuição não funcionarão. Então, algum código para o cálculo real da função de probabilidade da cauda, aproximadamente, pela aproximação de Luganini-Rice, seguindo Butler, página 18, (segunda correção de continuidade): $k$

Função para retornar a probabilidade da cauda:

#

Ghelp  <-  function(n, k) {
    stilde  <-  solve_speq(n, k)
    K  <-  function(t) funlist[[1]](n, t)
    Kd <-  function(t) funlist[[2]](n, t)
    Kdd <- function(t) funlist[[3]](n, t)
    Kddd <- function(t) funlist[[4]](n, t)
    w2tilde  <-  sign(stilde)*sqrt(2*(stilde*(k-0.5)-K(stilde)))  
    u2tilde  <-  2*sinh(stilde/2)*sqrt(Kdd(stilde))
    mu  <-  Kd(0)
    result  <- if (abs(mu-(k-0.5)) <= 0.001) 0.5-Kddd(0)/(6*sqrt(2*pi)*Kdd(0)^(3/2))  else
    1-pnorm(w2tilde)-dnorm(w2tilde)*(1/w2tilde - 1/u2tilde)
    return(result)
}
G  <- function(n, k) {
      fun  <- function(k) Ghelp(n, k)
      Vectorize(fun)(k)
  }

Vamos tentar usar isso para calcular uma tabela da distribuição, com base na fórmula que é a função do código R acima.

P (N \geq n) = P (X_{1} + X_{2} + \dots + X_{n} \leq k) = 1 - P (X_{1} + \dots + X_{n} \geq k + 1) = 1 - G (n, k + 1)

$P(N \ge n) = P(X_1+X_2+\dots+X_n \le k) \\ = 1-P(X_1+\dots+X_n \ge k+1) \\ = 1-G(n,k+1)$

G

$G$

Agora, vamos responder à pergunta original com . Então o número mínimo de rolos é 4 e o número máximo de rolos é 20. A probabilidade de que sejam necessários 20 rolos é muito pequena e pode ser calculada exatamente a partir da fórmula binomial, deixo isso para o leitor. (a aproximação acima não funcionará para ). $K=20$ $n=20$

Portanto, a probabilidade de ser aproximada por $N \ge 19$

> 1-G(20, 21)
[1] 2.220446e-16

A probabilidade de ser aproximada por: $N\ge 10$

> 1-G(10, 21)
[1] 0.002880649

E assim por diante. Usando tudo isso, você pode obter uma aproximação para a expectativa. Isso deve ser muito melhor do que as aproximações baseadas no teorema do limite central.

kjetil b halvorsen
fonte

O número esperado de jogadas de dados requer uma soma maior ou igual a K?

Respostas:

Função para retornar a probabilidade da cauda: