Я упрощаю вопрос исследования, который у меня есть на работе. Представьте, что у меня 5 монет, и давайте назовем головы успешными. Это ОЧЕНЬ смещенные монеты с вероятностью успеха p = 0.1. Теперь, если монеты были независимыми, а затем получить вероятность , по крайней мере 1 голову или более очень просто, . В моем сценарии мои испытания Бернулли (броски монет) не являются независимыми. Единственная информация, к которой у меня есть доступ, - это вероятность успеха (каждая p = 0,1) и теоретические корреляции Пирсона среди двоичных переменных.
Есть ли способ рассчитать вероятность одного или нескольких успехов только по этой информации? Я стараюсь избегать подхода, основанного на моделировании, потому что эти теоретические результаты будут использоваться для определения точности моделирования. Я изучал многомерное распределение Бернулли, но не думаю, что смогу полностью определить его только с учетом корреляций и предельных вероятностей успеха. Мой друг рекомендовал построить гауссову связку с маргинальными маргиналами (используя пакет R copula
), а затем использовать pMvdc()
функцию на большой выборке, чтобы получить желаемую вероятность, но я не совсем уверен, как с этим справиться.
Ответы:
Нет, это невозможно, когда у вас есть три или более монет.
Дело двух монет
Давайте сначала посмотрим, почему это работает для двух монет, поскольку это дает некоторую интуицию о том, что ломается в случае большего количества монет.
Обозначим через и Y переменные Бернулли, соответствующие двум случаям: X ∼ B e r ( p ) , Y ∼ B e r ( q ) . Во- первых, напомним , что соотношение X и Y являетсяX Y X∼Ber(p) Y∼Ber(q) X Y
и поскольку вы знаете маргиналы, вы знаете , E [ Y ] , V a r ( X ) и V a r ( Y ) , поэтому, зная соотношение, вы также знаете E [ X Y ] . Теперь X Y = 1 тогда и только тогда, когда оба X = 1 и Y = 1 , поэтому E [ X Y ] = P (E[X] E[Y] Var(X) Var(Y) E[XY] XY=1 X=1 Y=1
Зная маргиналы, вы знаете, что и q = P ( X = 0 , Y = 1 ) + P ( X = 1). , Y = 1 ) . Поскольку мы только что обнаружили, что вы знаете P ( X = 1 , Yp=P(X=1,Y=0)+P(X=1,Y=1) q=P(X=0,Y=1)+P(X=1,Y=1) , это означает, что вы также знаете P ( X = 1 ,P(X=1,Y=1) и P ( X = 0 , Y = 0 ) , но теперь все готово, так как вероятность, которую вы ищетеP(X=1,Y=0) P(X=0,Y=0)
Теперь мне лично все это легче увидеть с помощью картинки. Пусть . Тогда мы можем представить различные вероятности в виде квадрата:Pij=P(X=i,Y=j)
Здесь мы увидели, что знание корреляций означает, что вы можете вывести , помеченный красным, и что, зная маргиналы, вы знаете сумму для каждого ребра (одно из которых обозначено синим прямоугольником).P11
Корпус из трех монет
Это не будет так легко для трех монет; Интуитивно понятно, почему: зная маргиналы и корреляцию, вы знаете всего параметра, но совместное распределение имеет 2 3 = 86=3+3 23=8 результатов, но зная вероятности для из них, Вы можете выяснить последний; теперь 7 > 6 , поэтому кажется разумным, что можно составить два разных совместных распределения, маргинальные значения и корреляции которых одинаковы, и что можно переставлять вероятности, пока те, которые вы ищете, не будут отличаться.7 7>6
Пусть , Y и Z будут тремя переменными, и пустьX Y Z
В этом случае картина сверху становится следующей:
Размеры были увеличены на одно: красная вершина превратилась в несколько цветных ребер, а край, покрытый синим прямоугольником, стал целым лицом. Здесь синяя плоскость указывает, что, зная маргинал, вы знаете сумму вероятностей внутри; для того, кто на картинке,
Таким образом, это накладывает некоторые ограничения на возможные совместные распределения, но теперь мы сократили упражнение до комбинаторного упражнения по размещению чисел в вершинах куба. Без дальнейших церемоний, давайте предоставим два совместных распределения, маргиналы и корреляции которых одинаковы:
Здесь разделите все числа на100 получить распределение вероятностей. Чтобы увидеть, что они работают и имеют одинаковые маргиналы / корреляции, просто отметьте, что сумма вероятностей на каждом грани1 / 2 (это означает, что переменные Б е г (1 / 2) ) и что суммы для вершин на цветных ребрах совпадают в обоих случаях (в данном конкретном случае все корреляции на самом деле одинаковы, но в общем случае это не обязательно).
Наконец, вероятность получения хотя бы одной головы,1 - П000 и 1 - П'000 , различны в двух случаях, что мы и хотели доказать.
Для меня создание этих примеров сводилось к тому, чтобы поместить числа в куб для создания одного примера, а затем просто изменитьп111 и позволяя изменениям распространяться.
Изменить: Это точка, где я понял, что вы на самом деле работали с фиксированными маргиналами, и что вы знаете, что каждая переменная былаБ е г (1 / 10) , но если картинка выше имеет смысл, ее можно настроить, пока у вас не появятся нужные маргиналы.
Четыре или более монет
Наконец, когда у нас более трех монет, неудивительно, что мы можем составить неудачные примеры, поскольку теперь у нас есть еще большее расхождение между количеством параметров, необходимых для описания совместного распределения, и теми, которые нам предоставляют маргиналы и корреляции.
Конкретно, для любого числа монет больше трех вы можете просто рассмотреть примеры, первые три монеты которых ведут себя так же, как в двух приведенных выше примерах, и для которых результаты последних двух монет не зависят от всех других монет.
источник
Коррелированные испытания Бернулли приводят к бета-биномиальному распределению подсчитанных результатов. Должна быть возможность параметризации этого распределения, чтобы дать определенное значение корреляции, а затем вычислить желаемую вероятность.
источник