Какая интуиция стоит за бета-дистрибутивом?

438

Отказ от ответственности: я не статистика, а инженер-программист. Большая часть моих знаний в области статистики основана на самообразовании, поэтому у меня все еще есть много пробелов в понимании концепций, которые могут показаться здесь банальными для других людей. Поэтому я был бы очень благодарен, если бы ответы включали менее конкретные термины и больше объяснений. Представь, что ты разговариваешь со своей бабушкой :)

Я пытаюсь понять природу из бета - распределения - то , что она должна быть использована и как интерпретировать его в каждом конкретном случае. Если бы мы говорили, скажем, о нормальном распределении, то можно было бы описать его как время прибытия поезда: чаще всего оно прибывает как раз вовремя, немного реже - на 1 минуту раньше или на 1 минуту позже, и очень редко оно прибывает с разницей 20 минут от среднего. Равномерное распределение описывает, в частности, шанс каждого билета в лотерее. Биноминальное распределение можно описать с помощью монетных монет и так далее. Но есть такое интуитивное объяснение о бета - распределении ?

Допустим, и . Бета-распределение в этом случае выглядит следующим образом (сгенерировано в R):β = .5 B ( α , β )αзнак равно+0,99βзнак равно0,5В(α,β)

введите описание изображения здесь

Но что это на самом деле означает? Ось Y, очевидно, является плотностью вероятности, но что находится на оси Х?

Я был бы очень признателен за любое объяснение, будь то с этим примером или любым другим.

ffriend
источник
13
Ось у не является вероятностью (что очевидно, потому что по определению вероятность не может лежать вне интервала , но этот график продолжается до и - в принципе - до ). Это плотность вероятности : вероятность на единицу (а вы описали как скорость). 50 x x[0,1]50ИксИкс
whuber
4
@whuber: да, я понимаю, что такое PDF - это была просто ошибка в моем описании. Спасибо за правильное примечание!
друг
1
Я попытаюсь найти ссылку, но я знаю, что некоторые из более причудливых форм для обобщенного бета-распределения с формой имеют такие приложения, как физика. Кроме того, вы можете приспособить его к экспертным данным (min, mode, max) в среде с недостаточным объемом данных, и это часто лучше, чем использование треугольного распределения (к сожалению, часто используемого IE). a+(б-a)ВеTa(α1,α2)
SecretAgentMan
Вы, очевидно, никогда не путешествовали с железнодорожной компанией Deutsche Bahn. Вы были бы менее оптимистичны.
Хеннинг

Ответы:

622

Краткая версия заключается в том, что бета-распределение можно понимать как представление распределения вероятностей, то есть оно представляет все возможные значения вероятности, когда мы не знаем, что это за вероятность. Вот мое любимое интуитивное объяснение этого:

Любой, кто следит за бейсболом, знаком со средними значениями ватина - просто количество раз, когда игрок получает базовый удар, деленное на количество раз, когда он повышается в бите (так что это просто процент между 0и 1). .266в целом считается средним уровнем ватина, в то время .300как считается отличным.

Представьте, что у нас есть бейсболист, и мы хотим предсказать, каков будет его средний уровень за весь сезон. Вы могли бы сказать, что мы можем пока просто использовать его среднее значение, но это будет очень плохой показатель в начале сезона! Если игрок один раз подходит к бите и получает сингл, его среднее значение кратковременно 1.000, в то время как если он выбивает, его среднее значение равно 0.000. Не намного лучше, если вы подойдете к бите пять или шесть раз - вы можете получить счастливую полосу и получить среднее значение 1.000или неудачную полосу и получить среднее значение 0, ни одно из которых не является хорошим показателем того, как ты будешь бить в этом сезоне

Почему ваш средний уровень в первых нескольких попаданиях не является хорошим показателем вашего возможного среднего? Когда первая ат-бит игрока является аутом, почему никто не предсказывает, что он никогда не получит хит за весь сезон? Потому что мы идем с предыдущими ожиданиями. Мы знаем, что в истории большинство средних показателей за сезон колебались между чем-то вроде .215и .360с некоторыми редкими исключениями с обеих сторон. Мы знаем, что если игрок получает несколько аутов подряд с самого начала, это может указывать на то, что он окажется чуть хуже среднего, но мы знаем, что он, вероятно, не отклонится от этого диапазона.

Учитывая нашу среднюю проблему, которая может быть представлена ​​в виде биномиального распределения (серии успехов и неудач), лучший способ представить эти априорные ожидания (то, что мы в статистике называем априорными ) - это бета-распределение - оно говорит: прежде чем мы увидим, как игрок совершил свой первый удар, мы примерно ожидаем, что его средний уровень будет. Область распространения бета-версии (0, 1), как и вероятность, так что мы уже знаем, что мы на правильном пути, но пригодность бета-версии для этой задачи выходит далеко за рамки этого.

Мы ожидаем, что средний уровень игрока в течение сезона будет наиболее вероятным .27, но может варьироваться от разумного .21до .35. Это можно представить с помощью бета-распределения с параметрами и β = 219 :αзнак равно81βзнак равно219

curve(dbeta(x, 81, 219))

Бета (81, 219)

Я придумал эти параметры по двум причинам:

  • Среднее значение αα+β=8181+219=0,270
  • Как вы можете видеть на графике, это распределение почти полностью находится в пределах (.2, .35)- разумного диапазона для среднего значения.

Вы спросили, что представляет ось х на графике плотности бета-распределения - здесь она представляет его среднее значение. Таким образом, обратите внимание, что в этом случае не только ось Y является вероятностью (или, точнее, плотностью вероятности), но также является осью X (в конце концов, среднее значение ватита - это просто вероятность попадания)! Бета-распределение представляет собой распределение вероятностей вероятностей .

Но вот почему бета-версия является такой подходящей. Представьте, что игрок получает один удар. Его рекорд за сезон сейчас 1 hit; 1 at bat. Затем мы должны обновить наши вероятности - мы хотим немного сдвинуть всю эту кривую, чтобы отразить нашу новую информацию. Хотя математика для доказательства этого немного сложна ( она показана здесь ), результат очень прост . Новый бета-дистрибутив будет:

Beta(α0+hits,β0+misses)

α0β0αβБета(81+1,219)

curve(dbeta(x, 82, 219))

введите описание изображения здесь

Обратите внимание, что он почти не изменился - это изменение действительно невидимо невооруженным глазом! (Это потому, что один удар ничего не значит).

Бета(81+100,219+200)

curve(dbeta(x, 81+100, 219+200))

введите описание изображения здесь

Обратите внимание, что кривая теперь и тоньше, и смещена вправо (более высокий средний уровень), чем раньше - мы лучше понимаем, каков средний уровень игрока.

αα+β81+10081+100+219+200знак равно0,303100100+200знак равно0,3338181+219=0,270

Таким образом, бета-распределение лучше всего подходит для представления вероятностного распределения вероятностей - случай, когда мы не знаем заранее, что такое вероятность, но у нас есть некоторые разумные предположения.

Дэвид Робинсон
источник
5
@ffriend: Рад, что это помогло - я надеюсь, что вы следите за бейсболом (в противном случае мне интересно, понятно ли это!)
Дэвид Робинсон
11
Вот аналогичный пример от Джона Кука, использующего бинарный рейтинг продавца Amazon с разным количеством отзывов. Обсуждение выбора априора
Дмитрий В. Мастеров
4
α0знак равноβ0знак равно1/2
5
+ Мне нравится ваше объяснение того, как вы обновляете дистрибутив, когда у вас есть больше данных.
Майк Данлавей
2
@ user27997 Те, которые дали желаемое среднее значение .27, и стандартное отклонение, которое очень приблизительно реалистично для средних значений ватина (около .025). Между прочим, я даю объяснение того, как рассчитать α и β из желаемого среднего значения и дисперсии здесь .
Дэвид Робинсон
48

Распределение Беты используются для моделирования вещи , которые имеют ограниченный диапазон, как от 0 до 1.

Примерами являются вероятность успеха в эксперименте, имеющем только два результата, таких как успех и неудача. Если вы проводите ограниченное количество экспериментов, и некоторые из них успешны, вы можете представить то, что вам говорит, с помощью бета-версии.

Другой пример - статистика заказов . Например, если вы генерируете несколько (скажем, 4) одинаковых 0,1 случайных чисел и сортируете их, каково распределение 3-го?

Nss>1ВеTa(s+1,(N-s)+1)

Подробнее об этом ...

Майк Данлавей
источник
41

(0,1)

U1...UNN(0,1)U(1)...U(N)(U1,...,UN)U1...UNU(1)знак равномин(Uя)U(N)знак равноМаксимум(Uя)U(К)~Бета(К,N+1-К)Кзнак равно1,...,N

Этот результат показывает, что бета-распределения естественным образом появляются в математике, и у нее есть некоторые интересные приложения в математике.

Стефан Лоран
источник
28

Есть две основные мотивы:

Во-первых, бета-распределение сопряжено до распределения Бернулли. Это означает, что если у вас есть неизвестная вероятность, такая как смещение монеты, которое вы оцениваете повторными бросками монет, то вероятность, вызванная неизвестным смещением последовательностью бросков монет, является бета-распределенной.

журнал(Икс)журнал(1-Икс)Икс[0,1]Икс1,...,ИксN

Бета-дистрибутив не является специальным для общего моделирования вещей над [0,1], поскольку многие дистрибутивы могут быть усечены до этой поддержки и более применимы во многих случаях.

Нил Г
источник
23

введите описание изображения здесь

Предположим, продавец на каком-то сайте электронной коммерции получает 500 оценок, из которых 400 хороших и 100 плохих.

п

Наивное качество с точки зрения рейтингов продавца составляет 80%, потому что 0,8 = 400/500. Но «истинного» качества с точки зрения рейтингов мы не знаем.

пзнак равно77%

п

αзнак равно400+1βзнак равно100+1

п

library(ggplot2)

# 90% positive of 10 ratings
o1 <- 9
o0 <- 1
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim1 <- data.frame(p=rep(0:M/M,v))
df_beta1 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

# 80% positive of 500 ratings
o1 <- 400
o0 <- 100
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim2 <- data.frame(p=rep(0:M/M,v))
df_beta2 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

ggplot(data=df_sim1,aes(p)) +
    scale_x_continuous(breaks=0:10/10) +

    geom_histogram(aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta1 ,aes(p,y),colour=I("red"),size=2,alpha=.5) +

    geom_histogram(data=df_sim2, aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta2,aes(p,y),colour=I("orange"),size=2,alpha=.5)

http://www.joyofdata.de/blog/an-intuitive-interpretation-of-the-beta-distribution/

Раффаэль
источник
3
Спасибо Вам за Ваш вклад! Я озадачен чем-то, хотя: хотя легенда гистограммы гласит, что они показывают бета- плотности, вы, похоже, утверждаете, что они также описывают результаты биномиального моделирования («как часто это происходит в симуляции»). Но это разные вещи, хотя на иллюстрации они выглядят довольно близко. (Это является следствием почти нормальности беты с большими параметрами и центральной предельной теоремы для биномиальных распределений.)
whuber
Это хороший момент! Но я не уверен, как перефразировать это правильно. Если бы я просто построил гистограмму, то, конечно, вы бы не увидели большую часть плотности, учитывая ее величину. Так что да, гистограмма на самом деле, я думаю, не просто уменьшенная, а фактически (предполагаемая) плотность исходной гистограммы. Учитывая количество прогонов, я мог бы также вычислить коэффициент и уменьшить его линейно, но он выглядел бы почти точно так же, как ПЛЮС. То, что я (на самом деле) хочу сравнить, это плотность бета с плотностью результата симуляции ( плотность исходной гистограммы).
Рафаэль
8

До настоящего времени преобладание ответов охватывало обоснование для бета-значений RV, генерируемых как предыдущие, для пропорций выборки, и один умный ответ связывал бета-значения RV со статистикой заказов.

Бета-распределения также возникают из простой взаимосвязи между двумя гамма-лучами (k_i, 1) RV, i = 1,2 называют их X и Y. X / (X + Y) имеет бета-распределение.

Гамма RVs уже имеют свое обоснование в моделировании времени прибытия для независимых событий, поэтому я не буду рассматривать это, поскольку это не ваш вопрос. Но «часть времени», потраченная на выполнение одной из двух задач, выполняемых последовательно, естественно, предоставляет бета-версию.

Adamo
источник
1
+1 Спасибо за указание на использование Gamma для формирования бета-дистрибутива. Я слышал, что если вы хотите обобщить бета в дирихле, вы просто добавляете больше гаммы в знаменатель. Может быть, статистик просто знает это, но для меня это было действительно полезно, если смотреть на доверительные интервалы категорического наблюдения.
Майк Данлавей
4

Моя интуиция говорит, что она «весит» как текущую долю успеха « », так и текущую долю неудачи « ( 1 - х ) »: f ( x ; α , β )Икс(1-Икс)е(Икс;α,β)знак равнопостояннаяИксα-1(1-Икс)β-11/В(α,β)αβэто как «вес» для вклада неудачи. У вас есть двумерное пространство параметров (одно для вклада успехов и одно для вклада неудач), что делает его немного трудным для размышления и понимания.

Мэтью
источник
3

В приведенном примере параметры альфа = 81 и бета = 219 по сравнению с предыдущим годом [81 попадание в 300 на летучих мышах или (81 и 300 - 81 = 219)]

Я не знаю, что они называют предварительным предположением о 81 попадании и 219 выходах, но на английском это априорное предположение.

Обратите внимание, как в течение сезона кривая сдвигается влево или вправо, а модальная вероятность сдвигается влево или вправо, но кривая все еще существует.

Интересно, вступит ли Лаа Больших Чисел в конце концов и приведет ли средний уровень обратно к 0,270.

Чтобы угадать альфа и бета в целом, нужно взять полное количество предыдущих вхождений (у летучих мышей), среднее значение ватина, как известно, получить общее количество попаданий (альфа), бета или общее количество минус неудачи) и вуаля - у тебя есть твоя формула Затем обработайте дополнительные данные, как показано.

stevmg
источник
2

F(Икс)знак равноTANH((Икс/п)N)

Кстати, что происходит, если вы производите распределение размеров по микроскопическим наблюдениям, и у вас есть распределение частиц по числу, и ваша цель - работать с распределением по объему? Практически обязательно получить исходный дистрибутив в количестве, ограниченном справа. Таким образом, преобразование является более последовательным, потому что вы уверены, что в новом распределении томов не появляется ни режима, ни медианы, ни среднего размера из интервала, с которым вы работаете. Кроме того, вы избегаете эффекта Гренландии в Африке.

Преобразование очень легко, если у вас есть правильные формы, то есть сфера или призма. Вы должны добавить три единицы к альфа-параметру распределения числа бета и получить распределение объема.

Агустин Франциско КОРРЕА
источник
1
Добро пожаловать на сайт. Это было задумано как ответ на вопрос ОП? Не могли бы вы уточнить, как это связано с интуицией, стоящей за бета-дистрибутивом?
gung
Пожалуйста, отредактируйте, чтобы уточнить интуицию о бета-дистрибутиве.
Glen_b
1

Я думаю, что нет никакой интуиции за бета-дистрибуцией! Бета-дистрибутив - это очень гибкий дистрибутив с диапазоном FIX! А для целых чисел a и b даже легко разобраться. Также многие особые случаи бета-версии имеют свое собственное значение, например, равномерное распределение. Таким образом, если данные нужно смоделировать подобным образом или с немного большей гибкостью, тогда бета-версия - очень хороший выбор.

user32038
источник
0

В другом вопросе, касающемся бета-распространения, представлена ​​следующая интуиция, стоящая за бета-версией

Другими словами, бета-распределение можно рассматривать как распределение вероятностей в центре неравномерного распределения.

Для получения подробной информации, пожалуйста, ознакомьтесь с полным ответом на https://stats.stackexchange.com/a/429754/142758.

Jojo
источник