При обсуждении показателей достижения результатов, есть ли способ показать, что 0 из 20 попыток "хуже", чем 0 из 10 попыток?
probability
sampling
Vinne
источник
источник
Ответы:
Предположим, что мы знаем вероятность успеха при попытке. В этом случае мы вычисляем вероятность 0 из 10 и 0 из 20 случаев.
Однако в этом случае мы идем наоборот. Мы не знаем вероятности, у нас есть данные, и мы пытаемся оценить вероятность.
Чем больше у нас дел, тем больше мы можем быть уверены в результатах. Если я подброшу одну монету, и она будет головой, вы не будете уверены, что она двуглавая. Если я брошу это 1000 раз, и это будут все головы, маловероятно, что это уравновешено.
Существуют методы, которые были разработаны для того, чтобы учитывать количество трасс при оценке. Одним из них является аддитивное сглаживание, о котором @abukaj комментирует выше. При аддитивном сглаживании мы добавляем дополнительные псевдосэмплы во внимание. В нашем случае вместо следа, который мы видели, мы добавляем еще два - один успешный, а другой неудачный.
Обратите внимание, что аддитивное сглаживание является только одним методом оценки. Вы получите разные результаты с разными методами. Даже с самим аддитивным сглаживанием вы получили бы другие результаты, если бы добавили 4 псевдосэмпла.
Другой метод использует доверительный интервал, как предложено @mdewey. Чем больше образцов, тем короче будет доверительный интервал. Размер доверительного интервала пропорционален квадратному корню из выборок - . Следовательно, удвоение количества выборок приведет к более короткому доверительному интервалу . √1n√ 2–√
Среднее значение в обоих случаях равно 0. Мы принимаем уровень достоверности 90% (z = 1,645)
В случае отсутствия данных существует неопределенность. Предположения, которые вы делаете, и внешние данные, которые вы будете использовать, изменят то, что вы получите.
источник
Расширяя идею вызова доверительных интервалов, существует концепция точного биномиального интервала.
Биномиальное распределение - это общее количество успехов в независимых исследованиях, которые заканчиваются либо 0 (неудача), либо 1 (успех). Вероятность получения 1 (успеха) традиционно обозначается , а ее дополнение - . Тогда стандартным результатом вероятности является то, что вероятность ровно успехов в испытаниях равнаq = 1 - p k np q=1−p k n
Концепция доверительного интервала состоит в том, чтобы ограничить набор возможных значений параметров модели (здесь вероятности успеха ), чтобы мы могли делать вероятностные (ну, часто встречающиеся ) заявления о том, находится ли истинное значение параметра внутри этого интервала (а именно , что, если мы повторим вероятностный эксперимент, состоящий из 10 или 20 испытаний, и построим доверительный интервал определенным образом, мы увидим, что истинное значение параметра находится в интервале 95% времени).p
В этом случае мы можем решить для в этой формуле:p
Таким образом, если бы мы хотели 95% односторонний интервал, мы бы установили чтобы определить вероятность того, что наблюдаемый нулевой счет будет не более 5%. Для ответом является (т. Е. В крайнем случае, если вероятность успеха в каждом испытании составляет 13,9%, тогда вероятность наблюдения нулевого успеха составляет 5%). Для ответом будет . Таким образом, из выборки с мы узнали больше, чем из выборки с , в том смысле, что мы можем «исключить» диапазон что в выборке с по-прежнему остается правдоподобным.pn,0=5% n=20 [0%,13.9%] n=10 [0%,25.9%] n=20 n=10 [13.9%,25.9%] n=10
источник
Байесовский подход
Функция правдоподобия - Бернулли, а распределение Бета является сопряженным априором для распределения Бернулли, следовательно, апостериор следует за распределением Бета. Кроме того, задняя часть параметризована:
Следовательно:
Таким образом, если вы видите 10 сбоев, ваше ожидание равно , а если вы видите 20 сбоев, ваше ожидание равно . Чем больше неудач вы видите, тем ниже ваши ожидания от .p αα+β+10 p αα+β+20 p
Это разумный аргумент? Это зависит от того, как вы относитесь к байесовской статистике, готовы ли вы моделировать неопределенность по какому-либо параметру используя механику вероятности. И это зависит от того, насколько обоснован ваш выбор.p
источник