Сравнивая 0/10 к 0/20

10

При обсуждении показателей достижения результатов, есть ли способ показать, что 0 из 20 попыток "хуже", чем 0 из 10 попыток?

Vinne
источник
1
Вы можете попытаться использовать en.wikipedia.org/wiki/Additive_smoothing, но это будет скорее размахивать руками, чем твердым доказательством
abukaj
Откуда ты знаешь, что это хуже? Например, если бы было возможно только 10 попыток, то вы не знаете, какой будет оценка при большем количестве попыток.
Тим
4
Возможно, доверительный интервал для расчетной пропорции?
mdewey
5
Это кажется разумным вопросом для меня. Он основан на совершенно нормальной интуиции, которую можно обсуждать, и существуют статистические способы (например, байесовский) для решения этой проблемы. Я голосую, чтобы оставить открытым.
gung - Восстановить Монику
1
Я согласен с @gung. Это хороший вопрос.
Алексис

Ответы:

3

Предположим, что мы знаем вероятность успеха при попытке. В этом случае мы вычисляем вероятность 0 из 10 и 0 из 20 случаев.

Однако в этом случае мы идем наоборот. Мы не знаем вероятности, у нас есть данные, и мы пытаемся оценить вероятность.

Чем больше у нас дел, тем больше мы можем быть уверены в результатах. Если я подброшу одну монету, и она будет головой, вы не будете уверены, что она двуглавая. Если я брошу это 1000 раз, и это будут все головы, маловероятно, что это уравновешено.

Существуют методы, которые были разработаны для того, чтобы учитывать количество трасс при оценке. Одним из них является аддитивное сглаживание, о котором @abukaj комментирует выше. При аддитивном сглаживании мы добавляем дополнительные псевдосэмплы во внимание. В нашем случае вместо следа, который мы видели, мы добавляем еще два - один успешный, а другой неудачный.

  • В первом случае сглаженная вероятность будет = ~ 8,3% 11+010+1+1112
  • Во втором случае мы получим = ~ 4.5% 11+020+1+1122

Обратите внимание, что аддитивное сглаживание является только одним методом оценки. Вы получите разные результаты с разными методами. Даже с самим аддитивным сглаживанием вы получили бы другие результаты, если бы добавили 4 псевдосэмпла.

Другой метод использует доверительный интервал, как предложено @mdewey. Чем больше образцов, тем короче будет доверительный интервал. Размер доверительного интервала пропорционален квадратному корню из выборок - . Следовательно, удвоение количества выборок приведет к более короткому доверительному интервалу .1n2

Среднее значение в обоих случаях равно 0. Мы принимаем уровень достоверности 90% (z = 1,645)

  • В первом случае мы получим 0 + ~ 52%1.64510
  • Во втором случае мы получим 0 + ~ 36%1.64520

В случае отсутствия данных существует неопределенность. Предположения, которые вы делаете, и внешние данные, которые вы будете использовать, изменят то, что вы получите.

Dal
источник
1
Большое спасибо, Дэн Левин. Ваш ответ был достаточно ясен для нематематика, чтобы следовать, и при этом достаточно здравым, чтобы я интуитивно принял ваше объяснение. Спасибо всем комментаторам за ваш вклад.
17
1

Расширяя идею вызова доверительных интервалов, существует концепция точного биномиального интервала.

Биномиальное распределение - это общее количество успехов в независимых исследованиях, которые заканчиваются либо 0 (неудача), либо 1 (успех). Вероятность получения 1 (успеха) традиционно обозначается , а ее дополнение - . Тогда стандартным результатом вероятности является то, что вероятность ровно успехов в испытаниях равнаq = 1 - p k npq=1pkn

pn,k=(nk)pkqnk=n!k!(nk)!pkqnk

Концепция доверительного интервала состоит в том, чтобы ограничить набор возможных значений параметров модели (здесь вероятности успеха ), чтобы мы могли делать вероятностные (ну, часто встречающиеся ) заявления о том, находится ли истинное значение параметра внутри этого интервала (а именно , что, если мы повторим вероятностный эксперимент, состоящий из 10 или 20 испытаний, и построим доверительный интервал определенным образом, мы увидим, что истинное значение параметра находится в интервале 95% времени).p

В этом случае мы можем решить для в этой формуле: p

pn,0=(1p)n

Таким образом, если бы мы хотели 95% односторонний интервал, мы бы установили чтобы определить вероятность того, что наблюдаемый нулевой счет будет не более 5%. Для ответом является (т. Е. В крайнем случае, если вероятность успеха в каждом испытании составляет 13,9%, тогда вероятность наблюдения нулевого успеха составляет 5%). Для ответом будет . Таким образом, из выборки с мы узнали больше, чем из выборки с , в том смысле, что мы можем «исключить» диапазон что в выборке с по-прежнему остается правдоподобным.pn,0=5%n=20[0%,13.9%]n=10[0%,25.9%]n=20n=10[13.9%,25.9%]n=10

Stask
источник
0

Байесовский подход

Функция правдоподобия - Бернулли, а распределение Бета является сопряженным априором для распределения Бернулли, следовательно, апостериор следует за распределением Бета. Кроме того, задняя часть параметризована:

α^=α+i=1nXiβ^=β+ni=1nXi

Следовательно:

E[pX1,,Xn]=α^α^+β^=α+i=1nXiα+β+n

Таким образом, если вы видите 10 сбоев, ваше ожидание равно , а если вы видите 20 сбоев, ваше ожидание равно . Чем больше неудач вы видите, тем ниже ваши ожидания от .pαα+β+10pαα+β+20p

Это разумный аргумент? Это зависит от того, как вы относитесь к байесовской статистике, готовы ли вы моделировать неопределенность по какому-либо параметру используя механику вероятности. И это зависит от того, насколько обоснован ваш выбор.p

Мэтью Ганн
источник