Предположим, у вас следующая ситуация:
Со временем вы наблюдали 1000 игроков в боулинг, каждый из которых сыграл относительно небольшое количество игр (скажем, от 1 до 20). Вы отметили процент забастовок для каждого из этих игроков по количеству игр, в которые играл каждый из них.
Заходит новый игрок в боулинг, играет в 10 игр и получает 3 удара.
Распределение по количеству ударов для любого игрока считается биномиальным.
Я хочу оценить «истинную» вероятность успеха для этого игрока.
Пожалуйста, обратите внимание на следующее:
- Это не реальная ситуация или школьная проблема, просто проблема самопознания.
- Я студент с немного большим статистическим образованием, чем курс Stats 101. Я немного знаю о выводах, таких как оценка максимального правдоподобия ... Так что не стесняйтесь рассказывать мне области в статистике, о которых я должен прочитать.
- Моей проблеме может не хватать информации, или, если, скажем, было бы полезно, чтобы распределение вероятности успеха было приблизительно нормальным, скажите мне об этом.
большое спасибо
Ответы:
Это отличный пример, иллюстрирующий разницу между частыми и байесовскими подходами к выводу.
Мой первый, упрощенный ответ на частые вопросы: если вы уже предположили, что распределение ударов является биномиальным, вам не нужно ничего знать о других 1000 игроках (кроме, возможно, вы могли бы использовать их для проверки вашего биномиального предположения).
Когда у вас есть четкое предположение, ваша оценка очень проста: 3/10. Дисперсия этой оценки обычно равна p (1-p) / n = 0,021.
По сути, 1000 других игроков не имеют значения, если вы не думаете, что в распределении забастовок есть что-то интересное и не биномиальное (например, люди становятся лучше, когда играют в больше игр).
Более обдуманный байесовский взгляд на это: в качестве альтернативы, если вы заинтересованы в применении предыдущих знаний, полученных от других игроков, и считаете, что новый игрок - это, в основном, новая выборка из той же группы, вам следует подумать об этом на байесовском термины .
Оцените предварительное распределение игроков. Для этого вам нужно взглянуть на свои 1000 точек данных - 1000 игроков, которые уже наблюдались, для каждого из которых у вас есть оценка их вероятности удара. Каждая из этих 1000 точек может принимать только одно из 21 значения (от нуля до двадцати ударов из двадцати), и вы увидите распределение по всему полю. Если вы преобразуете эти оценки в пропорции (то есть между нулем и единицей), это распределение, вероятно, может быть достаточно хорошо аппроксимировано распределением вероятностей случайной величины с распределением бета, Бета-распределение полностью характеризуется только двумя параметрами - скажем, a и b - но поскольку эти параметры на самом деле не связаны с тем распределением, о котором вы нас спрашивали (собственная вероятность удара игрока), а с распределением более высокого уровня, которое мы называть их гиперпараметрами. Вы можете составить оценки этих гиперпараметров на основе 1000 точек данных одним из нескольких способов, которые на самом деле не имеют отношения к основному вопросу вашего вопроса.
Прежде чем вы вообще получите какую-либо информацию о своем игроке, вам лучше всего будет рассчитывать его / ее долю в забастовке (назовем это p), как раз наиболее вероятное значение p из того распределения Беты, которое мы только что установили.
Однако у нас есть данные о нашем собственном игроке, а не только о населении в целом! В Бога, которому мы верим, все остальные должны принести данные (я приписал бы эту цитату, если бы мог вспомнить, где я ее нашел, извините) Каждый раз, когда мы наблюдаем, как наш игрок играет в игру и получает удар или нет, у нас появляется новая информация для уточнения нашей оценки его пропорции.
Одна из замечательных особенностей бета-распределения как распределения вероятностей для пропорции заключается в том, что когда мы собираем новую информацию из данных и создаем новую улучшенную оценку пропорции, теория вероятности может показать, что новая улучшенная оценка также является бета-оценкой. Дистрибуция - просто более концентрированная версия. Это связано с тем, что бета-распределение - это то, что раньше называлось сопряженным при попытке сделать оценку биномиальной модели.
То есть, если мы наблюдаем z из n успешных событий (игры с ударами в этом случае); и предыдущее распространение было бета (а, б); апостериорное распределение (является оценкой распределения вероятности p с учетом как исходных 1000 точек данных, так и новых наблюдений за десятью играми) - это бета (a + z, b + nz) или (в нашем случае) бета (a + 3, Ь + 7). Как видите, чем больше данных вы получите, тем менее важны a и b. Математика этого достаточно проста и во многих текстах, но не так интересна (для меня, во всяком случае).
Если у вас есть R, вы можете увидеть пример, запустив приведенный ниже код (а если у вас нет R, вы должны его получить - это бесплатно и здорово помочь в решении этой проблемы). Это предполагает, что предварительное распределение игроков можно смоделировать с помощью бета-версии (2,5) - это было сделано мной. В действительности, есть способы, которыми вы можете оценить цифры для a и b лучше, чем просто составить 2 и 5, потому что я думаю, что кривая выглядит хорошо.
Как вы увидите, запустив этот стилизованный пример, точечная оценка вероятности забастовки игрока с учетом предварительного распределения бета (2,5) составляет 0,29, а не 0,30. Кроме того, мы можем создать доверительный интервал, который, откровенно говоря, более интуитивен и легче объяснить, чем доверительный интервал (см. Много вопросов и обсуждений в Интернете о разнице между ними, в том числе о CrossValidated).
Тогда понаблюдайте за своим новым игроком; и рассчитать новое апостериорное распределение для нового игрока. Фактически это говорит: «Учитывая то, что мы только что наблюдали, где, по нашему мнению, при распределении игроков этот человек, скорее всего, будет?»
источник