Suponha que você tenha uma sacola com ladrilhos, cada uma com uma letra. Existem blocos com a letra 'A', com 'B' e assim por diante, e 'curinga' (temos ). Suponha que você tenha um dicionário com um número finito de palavras.
Você escolhe ladrilhos da sacola sem reposição.
Como você calcularia (ou estimaria) a probabilidade de formar uma determinada palavra, de comprimento (com 1 < = < ) do dicionário, considerando os blocos selecionados?
Para aqueles que não estão familiarizados com o Scrabble (TM), o caractere curinga pode ser usado para corresponder a qualquer letra. Assim, a palavra 'BOOT' pode ser 'soletrada' com os blocos 'B', '*', 'O', 'T'. A ordem na qual as letras são desenhadas não importa.
Sugestão: para simplificar a redação das respostas, talvez seja melhor responder apenas à pergunta: qual é a probabilidade de ter a palavra 'BOOT' entre seus possíveis movimentos depois de desenhar 7 letras de uma sacola nova.
(a introdução do problema foi copiada desta pergunta semelhante )
fonte
Respostas:
Uma fórmula é solicitada. Infelizmente, a situação é tão complicada que parece que qualquer fórmula será apenas uma maneira indireta de enumerar todas as possibilidades. Em vez disso, esta resposta oferece um algoritmo que é (a) equivalente a uma fórmula que envolve somas de produtos de coeficientes binomiais e (b) pode ser portado para muitas plataformas.
Para obter essa fórmula, divida as possibilidades em grupos separados entre si de duas maneiras: de acordo com quantas letras que não estão na palavra são selecionadas no rack (seja ) e de acordo com quantos curingas (espaços em branco) são selecionados ( que isso seja ). Quando há blocos no rack, blocos disponíveis, blocos disponíveis com letras que não estão na palavra e espaços em branco disponíveis, o número de opções possíveis dadas por éw r = 7 N M W = 2 ( m , w )m w r=7 N M W=2 (m,w)
porque as opções de letras que não sejam palavras, espaços em branco e letras de palavras são dependentes de(m,w,r).
Isso reduz o problema de encontrar o número de maneiras de soletrar uma palavra ao selecionar apenas os blocos que representam as letras da palavra, considerando que espaços em branco estão disponíveis e os mosaicos serão selecionados. A situação é confusa e nenhuma fórmula fechada parece disponível. Por exemplo, com branco e letras fora da palavra, são desenhadas exatamente quatro letras para soletrar "boot" que foram extraídas dos blocos "b", "o" e "t" . Dado que existem "b", "o" er - m - w w = 0 m = 3 2 8 6w r−m−w w=0 m=3 2 8 6 "t" está no conjunto de blocos Scrabble, há probabilidades positivas de desenhar (multisets) "bboo", "bbot", "bbtt", "booo", "boot", "bott", "bttt" e "oooo "," ooot "," oott "," ottt "e" tttt ", mas apenas um desses feitiços" boot ". E esse foi o caso fácil! Por exemplo, supondo que o rack contenha cinco peças escolhidas aleatoriamente entre as peças "o", "b" e "t", junto com os dois espaços em branco, existem muitas outras maneiras de soletrar "boot" - e não soletrar. Por exemplo, "boot" pode ser escrito em "__boott" e "__bbttt", mas não em "__ttttt".
Essa contagem - o cerne do problema - pode ser tratada recursivamente. Vou descrevê-lo com um exemplo. Suponha que desejemos contar as maneiras de soletrar "boot" com um espaço em branco e mais quatro peças da coleção de peças "b", "o" e "t" (onde as duas peças restantes mostram letras não em branco que não estão em { "robô"}). Considere a primeira letra, "b":
Um "b" pode ser desenhado de nos dois blocos "b" disponíveis. Isso reduz o problema de contar o número de maneiras de escrever o sufixo "oot" usando os dois espaços em branco e apenas mais três peças da coleção de peças "o" e "t".(21)
Um espaço em branco pode ser designado como "b". Isso reduz o problema de contar o número de maneiras de escrever "oot" usando o espaço em branco restante e apenas mais três peças da coleção de peças "o" e "t".
Em geral, as etapas (1) e (2) - que são disjuntas e, portanto, contribuem de maneira adicional aos cálculos de probabilidade - podem ser implementadas como um loop sobre o número possível de espaços em branco que podem ser usados para a primeira letra. O problema reduzido é resolvido recursivamente. O caso base ocorre quando resta uma letra, existe um certo número de blocos com essa letra disponível e também pode haver alguns espaços em branco no rack. Só precisamos garantir que o número de espaços em branco no rack mais o número de peças disponíveis seja suficiente para obter a quantidade desejada dessa última letra.
Aqui está o7
R
código para a etapa recursiva.rack
geralmente é igual a , é uma matriz de contagens de letras (como ), é uma estrutura semelhante que fornece os números de blocos disponíveis com essas letras e é o número de espaços em branco que se supõe que ocorrem no rack.word
c(b=1, o=2, t=1)
alphabet
wild
Uma interface para essa função especifica os blocos Scrabble padrão, converte uma determinada palavra em sua estrutura de dados de vários conjuntos e executa a soma dupla sobre e . Aqui é onde os coeficientes binomiais e são calculados e multiplicados.w ( Mm w ( W(Mm) (Ww)
Vamos experimentar esta solução e cronometrá-la à medida que avançamos. O teste a seguir utiliza as mesmas entradas empregadas nas simulações do @Rasmus Bååth :
Esta máquina relata um tempo total decorrido de segundos: razoavelmente rápido. Os resultados?0.05
A probabilidade de "inicialização" de é exatamente igual ao valor obtido na minha outra resposta (que usa um método semelhante, mas o associa a uma estrutura mais poderosa que requer uma plataforma de computação de álgebra simbólica). As probabilidades para todas as quatro palavras estão razoavelmente próximas das simulações de Bååth (que não se poderia esperar fornecer um valor exato para a "zoologia" devido à baixa probabilidade de que é menor que uma em um milhão).2381831 / 333490850 11840 / 16007560800 ,114327888/16007560800 2381831/333490850 11840/16007560800,
fonte
R
mas ainda consegui usar suas funções em menos de uma hora de trabalho, para que o script receba informações de um arquivo de dicionário de 20 mil palavras e grave os resultados em um arquivo .csv. (isso levou menos de 10 minutos em um core i5 mid-range)As respostas à pergunta referenciada se aplicam aqui diretamente: crie um dicionário que consiste apenas na palavra de destino (e em suas possíveis ortografias curinga), calcule a chance de que um rack aleatório não possa formar o alvo e subtraia-o de . Este cálculo é rápido.1
As simulações (mostradas no final) suportam as respostas computadas.
Detalhes
Como na resposta anterior, o Mathematica é usado para realizar os cálculos.
Especifique o problema: a palavra (ou palavras, se desejar), as letras, suas contagens e o tamanho do rack. Como todas as letras que não estão na palavra agem da mesma forma, isso acelera bastante o cálculo, substituindo-as por um único símbolo representa "qualquer letra que não esteja na palavra".χ
Crie um dicionário dessa palavra (ou palavras) e aumente-o para incluir todas as ortografias curinga possíveis.
Calcule as não palavras:
(Existem não-palavras neste caso.)185
Calcule as chances. Para amostragem com substituição, basta substituir as contagens de blocos pelas variáveis:
Este valor é aproximadamente0.00756036.
Para amostragem sem substituição, use poderes fatoriais em vez de poderes:
Este valor é aproximadamente Os cálculos foram praticamente instantâneos.0.00714212.
Resultados simulados
Resultados de iterações com substituição:106
Compare-o com o valor calculado relativo ao seu erro padrão:
O acordo está bom, apoiando fortemente o resultado computado.
Resultados de iterações sem substituição:106
Faça a comparação:
O acordo nesta simulação foi excelente.
O tempo total para a simulação foi de segundos.12
fonte
Portanto, esta é uma solução de Monte Carlo , ou seja, vamos simular o desenho dos ladrilhos um zilhão de vezes e depois calcularemos quantos desses empates simulados resultaram em poder formar a palavra dada. Eu escrevi a solução em R, mas você pode usar qualquer outra linguagem de programação, como Python ou Ruby.
Primeiro, vou descrever como simular um empate. Primeiro vamos definir as frequências do bloco.
Em seguida, codifique a palavra como um vetor de contagem de letras.
Agora desenhe uma amostra de sete blocos e codifique-os da mesma maneira que a palavra.
Por fim, calcule quais letras estão faltando ...
... e somar o número de letras ausentes e subtrair o número de espaços em branco disponíveis. Se o resultado for zero ou menos, conseguimos escrever a palavra.
Nesse caso em particular, não o fizemos ... Agora, basta repetir isso várias vezes e calcular a porcentagem de empates bem-sucedidos. Tudo isso é feito pela seguinte função R:
Aqui
reps
está o número de empates simulados. Agora podemos experimentá-lo com várias palavras diferentes.fonte
sample
isso não funciona como você espera. Por exemplo, o que acontece com o seu código se o jogo for modificado para permitir um rack de 28 peças? Mudesize=7
parasize=28
para descobrir.fonte
Meh.
It's been a while since I looked at how I built my project. And my math may be entirely incorrect below, or correct. I may have it backwards. Honestly, I forget. BUT! Using only binomial combination, without taking into account blank tiles which throws the entire thing out of whack. The simple combination solution without wild.
I asked these questions myself, and built my own scrabble words probability dictionary because of it. You don't need a dictionary of possible words pulled out, only the math behind it and available letters based on letters in tile bag. The array of English rules is below. I spent weeks developing the math just to answer this question for all English words that can be used in a game, including words that can not be used in a game. It may all be incorrect.
The probability of drawing a given word from a bag of letters in Scrabble, requires how many letters are available in the bag, for each letter ( A-Z ) and, whether we're using the wild card as an addition to the math. The blank tiles are included in this math - assuming 100 tiles, 2 of which are blank. Also, how many tiles are available differs based on language of the game, and game rules from around the world. English scrabble differs from Arabic scrabble, obviously. Just alter the available letters, and the math should do the work.
If anyone finds errors, I will be sure to update and resolve them.
Boot: The probability of Boot in a game of scrabble is 0.000386% which is a chance of 67 out of 173,758 hands as shown on the word page for boot.
English Tiles
all is the array of letters in the bag. count is the array of available tiles for that letter, and point is the point value of the letter.
There are 100 tiles in an English scrabble game (i.e., the sum of
$count
). It does not matter how the tiles are pulled, so it's not a permutation.The Math I Used Determine how many letters are in the word and what letters are in the word, how many of those letters are available in the tile bag ( count for each letter, unique and allchars ). Binomial coefficient of each, divided by binomial coefficient of length word.
Determine the binomial combinations available
Foreach letter, what is the binomial coefficient.
There is 1 "B". There are 2 available, a 2% chance of pulling the b.
There is 2 "O". There are 8 available, a 8% chance of pulling the o.
There is 1 "T". There are 6 available, a 6% chance of pulling the t.
BOOT is a 4 letter word, being taken from a 100 tile set with blanks, 98 without.
n = 98. The number of tiles without blank in the English set
fonte
R
solution I posted. Try this one-secondR
simulation:let <- c(rep("b", 2), rep("o", 8), rep("t", 6), rep("_", 84)); boot <- function(x) sum(x=="b")>=1 && sum(x=="o")>=2 && sum(x=="t")>=1; mean(replicate(1e5, boot(sample(let, 7))))