Как смоделировать сумму случайных величин Бернулли для зависимых данных?

9

У меня есть почти такие же вопросы, как этот: Как я могу эффективно моделировать сумму случайных величин Бернулли?

Но настройка совсем другая:

  1. P ( X i = 1 ) = p i N p iSзнак равноΣязнак равно1,NИкся , , ~ 20, ~ 0,1п(Иксязнак равно1)знак равнопяNпя

  2. У нас есть данные для результатов случайных величин Бернулли: ,Икся,JSJзнак равноΣязнак равно1,NИкся,J

  3. Если мы оценим с максимальной оценкой правдоподобия (и получим ), то получится, что намного больше, чем ожидается по другим критериям:рпяP { S = 3 } ( р М Л Е я ) Р { S = 3 } ( р М Л Е я ) - Р е х р е с т е д { S = 3 } 0,05п^яMLЕп^{Sзнак равно3}(п^яMLЕ)п^{Sзнак равно3}(п^яMLЕ)-п^еИкспесTеd{Sзнак равно3}0,05

  4. Таким образом, и (j> k) не могут рассматриваться как независимые (они имеют небольшую зависимость).ИксяИксJ (J>К)

  5. Есть некоторые ограничения, подобные этим: пя+1пя и Σs2п^{Sзнак равноs}знак равноA (известный), который должен помочь с оценкой п{S} .

Как мы можем попытаться смоделировать сумму случайных величин Бернулли в этом случае?

Какая литература может быть полезна для решения задачи?

ОБНОВЛЕНО

Есть еще несколько идей:

(1) Можно предположить, что неизвестная зависимость между начинается после 1 или более последовательных успехов. Поэтому, когда , и .i = 1 , K X i >0 p K + 1 p K + 1 p K + 1 < p K + 1ИксяΣязнак равно1,КИкся>0pK+1pK+1pK+1<pK+1

(2) Чтобы использовать MLE, нам нужна наименее сомнительная модель. Вот вариант:

Σ я = 1 , к Й я = 0 P { X 1 , . , , , Х к , Х к + 1 , . , , , X NP{X1,...,Xk}=(1p1)...(1pk) если для любого k if и , а для любого k.Σязнак равно1,КИксязнак равно0i = 1 , k - 1 X i = 0 X k = 1 P { X k + 1 = 1 , X k + 2 = 1 ,п{Икс1,,,,,ИксК,ИксК+1,,,,,ИксN}знак равно(1-п1),,,пКп'{ИксК+1,,,,,ИксN}Σязнак равно1,К-1Иксязнак равно0ИксКзнак равно1п'{ИксК+1знак равно1,ИксК+2знак равно1,,,,,ИксNзнак равно1}пК+1пК+2,,,пN

(3) Поскольку нас интересует только мы можем установить (вероятность успеха для N- (k + 1) +1 слагаемых из хвоста). И используйте параметризациюР ' { Х к + 1 , . , , , X N } P { i = 1 , k X i = s ; N - ( k + 1 ) + 1 = l } i = k + 1 , N X i P { п{S}п'{ИксК+1,,,,,ИксN}п"{Σязнак равно1,КИксязнак равноs';N-(К+1)+1знак равноL}Σязнак равноК+1,NИксяп"{Σязнак равноК,NИксязнак равноs';N-К+1знак равноL}знак равнопs',L

(4) Используйте MLE для модели, основанной на параметрах и с для (и любого ) и некоторых других собственных ограничений ,p 0 , 1 , p 1 , 1 ; p 0 , 2 , p 1 , 2 , p 2 , 2 ; , , , р в сек ' , л = 0 с '6 лп1,,,,,пNп0,1,п1,1;п0,2,п1,2,п2,2;,,,пs',Lзнак равно0s'6L

Все ли в порядке с этим планом?

ОБНОВЛЕНО 2

Некоторые примеры эмпирического распределения (красный) по сравнению с распределением Пуассона (синий) (среднее значение Пуассона составляет 2,22 и 2,45, размеры выборки 332 и 259):п{S}

sample1 sample2

Для образцов (А1, А2) с пуассоновскими значениями 2,28 и 2,51 (размеры образцов 303 и 249):

sample3 sample4

Для объединенного samlpe A1 + A2 (размер выборки 552):

образец 3 + образец 4

Похоже, исправление Пуассона должно быть лучшей моделью :).

Андрей
источник
2
Что такое ? Икся,J
ЧЛ
1
@ Андрей Формулы в (2) и второе ограничение в (4) не имеют смысла: что означают шляпы в (4)? Что такое ? (Вы определили только , а не ) Является ли выражение в (4) суммой трех произведений или чем-то еще? S j SSSJS
whuber
S j S SИкся,J - случайные результаты Бернулли (i-й результат в j-й серии), - j-й результат суммы (сумма по серии). - случайная величина суммы; шляпы в (4) означают оценки. Таким образом , есть некоторая дополнительная информация о сумме низких значений . Извините за путаницу. SJSS
Андрей

Ответы:

3

Одним из подходов было бы моделирование с обобщенной линейной моделью (GLM). Здесь вы бы сформулировали , вероятность успеха в -м испытании как (логистическую линейную) функцию недавней истории наблюдений. Таким образом, вы по сути устанавливаете авторегрессионную GLM, где шум - это Бернулли, а функция связи - логит. Настройка:Икспяя

пязнак равное(б+a1Икся-1+a2Икся-2+...aКИкся-К) , где

е(Икс)знак равно11+ехр(Икс) и

Икся~ВерNоULLя(пя)

Параметры модели: , которые можно оценить с помощью логистической регрессии. (Все, что вам нужно сделать, это настроить матрицу проектирования, используя соответствующую часть истории наблюдений в каждом испытании, и передать ее в функцию оценки логистической регрессии; логарифмическая вероятность является вогнутой, поэтому для параметров существует уникальный глобальный максимум). Если результаты действительно независимы, тогда будет установлен на ноль; положительное значение означает, что последующие значения увеличиваются всякий раз, когда наблюдается успех.a i a i p i{б,a1,...aК}aяaяпя

Модель не предоставляет простого выражения для вероятности по сумме значений , но это легко вычислить путем моделирования (фильтрация частиц или MCMC), поскольку модель имеет простую марковскую структуру.Икся

Этот тип модели с большим успехом использовался для моделирования временных зависимостей между «пиками» нейронов в мозге, и существует обширная литература по моделям авторегрессионных точечных процессов. См., Например, Truccolo et al 2005 (хотя в этой статье вместо вероятности Бернулли используется Пуассон, но отображение от одного к другому просто).

jpillow
источник
1

Если зависимость вызвана комкованием, то решением может быть составная модель Пуассона в качестве модели . Несколько случайная ссылка - это Барбур и Криссафину.SJ

В совершенно другом направлении, поскольку вы указываете, что равно 20, и, следовательно, относительно мало, можно построить графическую модель , но я не знаю, позволяют ли ваши настройки и данные сделать это возможным. Как комментарии @chl, будет полезно, если вы опишите, что такое .X i j X i , jNИксяJИкся,J

Если представляют собой последовательные измерения, например, во времени, и зависимость связана с этим, третья возможность - и в некоторой степени компромисс между двумя вышеупомянутыми предложениями - это использовать скрытую марковскую модель «с. X i , jИкся,JИкся,J

NRH
источник
X iИкся,J - случайные результаты Бернулли. Извините за неточность. Итак, - это сумма очков для спортивных команд за последовательные равные интервалы времени. Оказывается, что после того, как первый гол будет забит, вероятности следующего гола в интервале будут другими. Икся
Андрей