Предположим, у вас была сумка с плитками, на каждой из которых была буква. Есть тайлы с буквой 'A', с 'B' и т. Д., И плитки с подстановочными знаками (у нас есть ). Предположим, у вас был словарь с конечным числом слов.
Вы выбираете плиток из сумки без замены.
Как бы вы вычислили (или оценили) вероятность того, что вы можете сформировать данное слово длиной (с 1 < = < ) из словаря, учитывая выбранных плиток?
Для тех, кто не знаком с Scrabble (TM), подстановочный знак может использоваться для соответствия любой букве. Таким образом, слово «BOOT» может быть «написано» с плитками «B», «*», «O», «T». Порядок, в котором нарисованы буквы, не имеет значения.
Предложение: чтобы упростить написание ответов, может быть лучше просто ответить на вопрос: какова вероятность того, что слово «BOOT» будет среди ваших возможных ходов после того, как вы вытащили 7 букв из свежей сумки.
(введение проблемы было скопировано из этого похожего вопроса )
источник
Ответы:
Формула запрашивается. К сожалению, ситуация настолько сложна, что кажется, что любая формула будет просто окольным способом перечисления всех возможностей. Вместо этого этот ответ предлагает алгоритм, который (а) эквивалентен формуле, включающей суммы произведений биномиальных коэффициентов, и (б) может быть перенесен на многие платформы.
Чтобы получить такую формулу, разбейте возможности на взаимно непересекающиеся группы двумя способами: в зависимости от того, сколько букв в слове выбрано не в слове (пусть это будет ), и в зависимости от того, сколько подстановочных знаков (пробелов) выбрано ( пусть это будет ш ). Если в стойке имеется r = 7 плиток, N доступных плиток, M доступных плиток с буквами, не входящими в слово, и W = 2 доступных пробела, число возможных вариантов выбора, заданных ( m , w ), равноm w r=7 N M W=2 (m,w)
потому что выбор несловесных букв, пробелов и словесных букв не зависит от( м , ш , г ) .
Это сводит задачу к нахождению числа способов пишутся словом при выборе только из плиток , представляющих буквы этого слова, учитывая , что имеются заготовки и т - м - ж плитки будут выбраны. Ситуация грязная, и нет закрытой формулы, кажется, доступны. Например, с w = 0 пробелами и m = 3 буквами вне слова остается ровно четыре буквы, оставляющие заклинание «boot», которые были нарисованы из тайлов «b», «o» и «t» , Учитывая, что есть 2 "b", 8 "o" и 6вес r - m - w w = 0 м = 3 2 8 6 "t" в наборе плиток Scrabble, есть положительные вероятности рисования (мультимножества) "bboo", "bbot", "bbtt", "booo", "boot", "bot", "bttt", "oooo "," ooot "," oott "," ottt "и" tttt ", но только одно из этих заклинаний" boot ". И это был легкий случай! Например, если предположить, что стойка содержит пять плиток, выбранных случайным образом из плиток «o», «b» и «t», вместе с обоими пробелами, существует еще много способов написания слова «загрузочный», а не его написания. Например, «boot» может быть написано из «__boott» и «__bbttt», но не из «__ttttt».
Этот подсчет - суть проблемы - может быть обработан рекурсивно. Я опишу это на примере. Предположим, что мы хотим подсчитать способы написания слова «boot» с одной пустой и еще четырьмя плитками из коллекции плиток «b», «o» и «t» (откуда оставшиеся две плитки показывают непустые буквы не в { "б", "о", "т"}). Рассмотрим первую букву «б»:
«B» можно нарисовать в доступны пути из двух «b» плиток. Это сводит проблему к подсчету количества способов написания суффикса "oot" с использованием обоих пробелов и еще трех плиток из коллекции плиток "o" и "t".( 21)
Один пробел может быть обозначен как «б». Это сводит проблему к подсчету количества способов написания «oot» с использованием оставшегося пробела и еще трех плиток из набора «o» и «t» плиток.
Как правило, этапы (1) и (2), которые не пересекаются и, следовательно, вносят дополнительный вклад в вычисления вероятности, могут быть реализованы в виде цикла по возможному количеству пробелов, которые могут использоваться для первой буквы. Приведенная задача решается рекурсивно. Базовый случай возникает, когда остается одна буква, имеется определенное количество плиток с этой буквой, и в стойке также могут быть пробелы. Нам нужно только убедиться, что количество заготовок в стойке плюс количество доступных плиток будет достаточным для получения желаемого количества этой последней буквы.
Вот7
R
код для рекурсивного шага.rack
обычно равно , представляет собой массив подсчетов букв (например, ), представляет собой аналогичную структуру, дающую количество доступных плиток с этими буквами, и представляет собой число пробелов, предположительно встречающихся в стойкеword
c(b=1, o=2, t=1)
alphabet
wild
Интерфейс этой функции задает стандартные фрагменты Scrabble, преобразует данное слово в его структуру данных из нескольких множеств и выполняет двойное суммирование по и w . Вот где биномиальные коэффициенты ( Мм вес и ( ш( Мм) вычисляются и умножаются.( Wвес)
Давайте попробуем это решение и оценим его по ходу. В следующем тесте используются те же входные данные, которые использовались при моделировании @Rasmus Bååth :
Эта машина сообщает об общем прошедшем времени в секунды: достаточно быстро. Результаты?0,05
Вероятность «загрузка» из точно равна значению +2381831 / +333490850 , полученную в моем другом ответе (который использует подобный метод , но кушетки его в более мощных рамках требующих символическую алгебры вычислительной платформу). Вероятности всех четырех слов достаточно близки к симуляции Баас (которые не могли бы ожидать , чтобы дать точное значение «зоология» в связи с его низкой вероятностью 11840 / 16007560800 , что меньше , чем один на миллион).114327888 / 16007560800 2381831 / 333490850 11840 / 16007560800 ,
источник
R
но все же сумел использовать ваши функции менее чем за час работы, так что скрипт получает данные из файла словаря из 20 тысяч слов и записывает результаты в файл .csv. (это заняло менее 10 минут на среднем уровне Core i5)Ответы на упомянутый вопрос применимы и здесь: создайте словарь, состоящий только из целевого слова (и его возможных подстановочных знаков), вычислите вероятность того, что случайная стойка не может сформировать цель, и вычтите ее из . Это вычисление быстро.1
Моделирование (показано в конце) поддерживает вычисленные ответы.
Детали
Как и в предыдущем ответе, Mathematica используется для выполнения расчетов.
Укажите проблему: слово (или слова, если хотите), буквы, их количество и размер стойки. Поскольку все буквы, не входящие в это слово, действуют одинаково, это значительно ускоряет вычисления, заменяя их все одним символом представляющим «любую букву, не входящую в слово».χ
Создайте словарь этого слова (или слов) и дополните его, чтобы включить все возможные подстановочные символы.
Вычислить не слова:
Подсчитайте шансы. Для выборки с заменой просто замените количество плиток на переменные:
Для выборки без замены используйте факторные полномочия вместо полномочий:
Результаты симуляции
Сравните его с вычисленным значением относительно его стандартной ошибки:
Соглашение в порядке, решительно поддерживает вычисленный результат.
Сделайте сравнение:
Согласие в этом моделировании было превосходным.
источник
Так что это решение Монте-Карло , то есть мы собираемся смоделировать рисование тайлов миллион раз, а затем рассчитаем, сколько из этих симулированных розыгрышей привело к тому, что мы смогли сформировать данное слово. Я написал решение на R, но вы можете использовать любой другой язык программирования, например, Python или Ruby.
Сначала я опишу, как имитировать одну ничью. Сначала давайте определим частоты тайлов.
Затем закодируйте слово как вектор букв.
Теперь нарисуйте образец из семи плиток и закодируйте их так же, как слово.
Наконец, посчитайте, какие буквы отсутствуют ...
... и сложите количество пропущенных букв и вычтите количество доступных пробелов. Если результат равен нулю или меньше, нам удалось записать слово.
В данном конкретном случае мы этого не сделали ... Теперь нам просто нужно повторить это много раз и рассчитать процент успешных розыгрышей. Все это делается с помощью следующей функции R:
Вот
reps
количество смоделированных розыгрышей. Теперь мы можем попробовать это на нескольких разных словах.источник
sample
это не так, как вы ожидаете. Например, что произойдет с вашим кодом, если в игру внесены изменения в стойку из 28 плиток? Перейдите,size=7
чтобыsize=28
узнать.источник
Meh.
It's been a while since I looked at how I built my project. And my math may be entirely incorrect below, or correct. I may have it backwards. Honestly, I forget. BUT! Using only binomial combination, without taking into account blank tiles which throws the entire thing out of whack. The simple combination solution without wild.
I asked these questions myself, and built my own scrabble words probability dictionary because of it. You don't need a dictionary of possible words pulled out, only the math behind it and available letters based on letters in tile bag. The array of English rules is below. I spent weeks developing the math just to answer this question for all English words that can be used in a game, including words that can not be used in a game. It may all be incorrect.
The probability of drawing a given word from a bag of letters in Scrabble, requires how many letters are available in the bag, for each letter ( A-Z ) and, whether we're using the wild card as an addition to the math. The blank tiles are included in this math - assuming 100 tiles, 2 of which are blank. Also, how many tiles are available differs based on language of the game, and game rules from around the world. English scrabble differs from Arabic scrabble, obviously. Just alter the available letters, and the math should do the work.
If anyone finds errors, I will be sure to update and resolve them.
Boot: The probability of Boot in a game of scrabble is 0.000386% which is a chance of 67 out of 173,758 hands as shown on the word page for boot.
English Tiles
all is the array of letters in the bag. count is the array of available tiles for that letter, and point is the point value of the letter.
There are 100 tiles in an English scrabble game (i.e., the sum of
$count
). It does not matter how the tiles are pulled, so it's not a permutation.The Math I Used Determine how many letters are in the word and what letters are in the word, how many of those letters are available in the tile bag ( count for each letter, unique and allchars ). Binomial coefficient of each, divided by binomial coefficient of length word.
Determine the binomial combinations available
Foreach letter, what is the binomial coefficient.
There is 1 "B". There are 2 available, a 2% chance of pulling the b.
There is 2 "O". There are 8 available, a 8% chance of pulling the o.
There is 1 "T". There are 6 available, a 6% chance of pulling the t.
BOOT is a 4 letter word, being taken from a 100 tile set with blanks, 98 without.
n = 98. The number of tiles without blank in the English set
источник
R
solution I posted. Try this one-secondR
simulation:let <- c(rep("b", 2), rep("o", 8), rep("t", 6), rep("_", 84)); boot <- function(x) sum(x=="b")>=1 && sum(x=="o")>=2 && sum(x=="t")>=1; mean(replicate(1e5, boot(sample(let, 7))))