У меня есть набор данных, детализирующий большое количество игр в крикет (несколько тысяч). В крикет "боулеры" неоднократно бросают мяч в ряд "игроков с битой". Котелок пытается вытащить игрока с битой. В этом отношении он очень похож на кувшины и баттеры в бейсболе.
Если бы я взял весь набор данных и поделил общее количество шаров, из которых вышел игрок с битой, на общее количество шаров, я вижу, что у меня будет средняя вероятность того, что котелок выведет игрока с битой - это будет около 0,03 ( надеюсь, я не ошиблась уже?)
Что меня интересует, так это то, что я могу сделать, чтобы попытаться вычислить вероятность того, что конкретный игрок с битой будет выбит конкретным боулером на следующем шаре.
Набор данных достаточно велик, чтобы любой игрок в шары подал тысячи мячей широкому кругу игроков с битой. Таким образом, я считаю, что я мог бы просто разделить количество аутов, которые достиг котелок, на количество шаров, которые он отбил, чтобы рассчитать новую вероятность того, что этот конкретный котелок выйдет из следующего шара.
Моя проблема в том, что набор данных недостаточно велик, чтобы гарантировать, что тот или иной котелок накачал статистически значимое количество шаров на любом игроке с битой. Так что, если я заинтересован в расчете вероятности выхода для конкретного боулера, обращенного к конкретным игрокам с битой, я не думаю, что это нельзя сделать таким же упрощенным способом.
Мой вопрос заключается в том, действителен ли следующий подход:
По всему набору данных вероятность выхода мяча равна 0,03.
Если я посчитаю, что в среднем котелок А имеет вероятность подняться на 0,06 (то есть в два раза чаще, чем средний котелок),
и в среднем игрок с битой B имел вероятность быть 0,01 (на треть меньше, чем средний игрок с битой),
тогда правильно ли говорить, что вероятность того, что конкретный игрок с битой будет на следующем шаре с этим конкретным котелком, будет 0,06 * (0,01 / 0,03) = 0,02?
источник
Ответы:
К сожалению, это, возможно, уже не совсем то, что вы ищете.
Предположим, у нас есть один котелок и два игрока с битой: Дон Брэдман и я. (Я очень мало знаю о крикете, поэтому, если я делаю что-то далеко отсюда, дайте мне знать.) Игры идут примерно так:
В этом случае есть четыре аута из 200 мисок, поэтому предельная вероятность того, что котелок вытащит игрока с битой, оценивается как 4/200 = 2%. Но на самом деле вероятность того, что Дон уйдет, больше 1%, а у меня - 100%. Так что, если вы выбираете игрока с битой и котелка наугад, вероятность того, что этот игрок выгонит этого игрока с битой на этот раз, будет больше похожа (вероятность 50%, что вы выбрали Дона) * (вероятность 1%, он выберется) + (вероятность 50%, которую вы выбрали я) * (100% вероятность того, что я выйду) = 50,05%. Но если вы выберете поле наугад, то вероятность того, что он выйдет, составляет 2%. Поэтому вам нужно тщательно продумать, о какой из этих моделей выборки вы думаете.
Во всяком случае, ваше предложение не сумасшедшее. Более символично: пусть будет котелком, а игроком с битой; пусть будет вероятностью того, что выберет . Тогда вы говорите:b m f(b,m) b m
Это имеет желаемое свойство: это аналогично, если вы принимаете средства только через или .
Обратите внимание, что в этом случае мы можем назначить предполагаете, что вы можете достаточно хорошо наблюдать и по данным. Если (а) у вас достаточно игр [которые вы делаете] и (б) все игроки играют друг с другом с достаточно похожими частотами, то это нормально.г(б)ч(м)
Чтобы немного подробнее остановиться на (b): представьте, что у вас есть данные из нескольких профессиональных игр и из моих игр, в которые я играю со своими друзьями. Если нет совпадений, возможно, я выгляжу очень хорошо по сравнению с моими друзьями, так что, возможно, вы думаете, что я намного лучше, чем худший профессиональный игрок. Это, очевидно, неверно, но у вас нет данных, чтобы это опровергнуть. Если у вас есть небольшое совпадение, когда я однажды играл против профессионального игрока и был уничтожен, тогда данные подтверждают, что я и мои друзья оцениваемся как худшие, чем профи, но ваш метод этого не учитывает. Технически, проблема здесь в том, что вы предполагаете, что у вас есть хороший пример, например, , но ваше распределение смещено.Eb′[f(b′,m)] b′
Конечно, ваши данные не будут выглядеть так плохо, но в зависимости от структуры лиги или чего-то еще, в ней могут быть некоторые элементы этой проблемы.
Вы можете попробовать обойти это с другим подходом. Предложенная модель для на самом деле является примером моделей матричной факторизации низкого ранга, общих для совместной фильтрации , как в проблеме Netflix . Там вы выбираете функции и для измерения и представляете . Вы можете интерпретировать как сложность вашей модели от единичной оценки «качества» до оценки по нескольким измерениям: возможно, некоторые боулеры лучше справляются с определенными типами игроков с битой. (Это было сделано, например, для игр NBA .)f g(b) h(m) r f(b,m)=g(b)Th(m) r>1
Причина, по которой они называются матричной факторизацией, заключается в том, что если вы создадите матрицу с таким количеством строк, как котлы, и столько же столбцов, сколько с игроками с битой, вы можете записать это какF
Конечно, вы не можете наблюдать за напрямую. Обычная модель состоит в том, что вы можете наблюдать за шумными записями случайно; в вашем случае, вы получите наблюдать ничью из биномиального распределения со случайным числом испытаний для каждой записи .F F F
Вы можете построить вероятностную модель как, скажем:
Это не идеальная модель: с одной стороны, она игнорирует, что коррелирует с оценками (как я уже упоминал в первом разделе), и, что более важно, она не ограничивает быть в (вы, вероятно, использовали бы логистическую сигмоидальную или подобную для достижения этой цели). Связанная статья с более сложными априорами для и (но в которой не используется биномиальная вероятность): Салахутдинов и Мних, Байесовская вероятностная матричная факторизация с использованием цепочки Маркова Монте-Карло , ICML 2008. ( doi / author's pdf )n Fij [0,1] G H
источник
Вы не можете определить правильную вероятность того, что B выйдет, учитывая, что A является боулером, если A и B никогда не встречались на поле только на основании их средних значений с другими игроками.
источник