Сходимость по алгоритму EM с двумерным распределением смеси

9

У меня есть смешанная модель, в которой я хочу найти оценку максимального правдоподобия для данного набора данных и набора частично наблюдаемых данных . Я реализовал и E-шаг (вычисление ожидания учетом и текущих параметров ), и M-шаг, чтобы минимизировать отрицательное логарифмическое правдоподобие с учетом ожидаемого .z z x θ k zxzzxθkz

Как я понял, максимальная вероятность увеличивается для каждой итерации, это означает, что отрицательная логарифмическая вероятность должна уменьшаться для каждой итерации? Однако, как я повторяю, алгоритм действительно не дает уменьшающихся значений логарифмического правдоподобия. Вместо этого оно может уменьшаться и увеличиваться. Например, это были значения отрицательного логарифмического правдоподобия до сходимости:

введите описание изображения здесь

Есть ли здесь, что я неправильно понял?

Кроме того, для смоделированных данных, когда я выполняю максимальное правдоподобие для истинных скрытых (ненаблюдаемых) переменных, у меня есть близкое к идеальному подгонку, что указывает на отсутствие ошибок программирования. Для EM-алгоритма он часто сходится к явно неоптимальным решениям, особенно для определенного подмножества параметров (то есть пропорций классифицирующих переменных). Хорошо известно, что алгоритм может сходиться к локальным минимумам или стационарным точкам, существует ли обычный поиск по эвристике или аналогично для увеличения вероятности нахождения глобального минимума (или максимума) . Я полагаю, что для этой конкретной проблемы существует много ошибочных классификаций, потому что в двумерной смеси одно из двух распределений принимает значения с вероятностью один (это смесь времен жизни, где истинное время жизни определяетсяz zT=zT0+(1z) где указывает принадлежность к любому распределению. Индикатор конечно же, подвергается цензуре в наборе данных. zzвведите описание изображения здесь

Я добавил вторую цифру, когда я начну с теоретического решения (которое должно быть близко к оптимальному). Однако, как видно, вероятность и параметры расходятся от этого решения в одно, явно уступающее.

редактировать: полные данные имеют вид где - наблюдаемое время для субъекта , указывает, связано ли время с фактическим событием или если он подвергается цензуре справа (1 обозначает событие, а 0 обозначает правую цензуру), - это время усечения наблюдения (возможно, 0) с индикатором усечения и, наконец, - это индикатор того, к какой популяции относится наблюдение (так как его двумерный нам нужно только рассмотреть 0 и 1). t i i δ i L i τ i z ixi=(ti,δi,Li,τi,zi)tiiδiLiτizi

Для имеем функцию плотности , аналогично она связана с функцией распределения хвоста . Для интересующее событие не произойдет. Хотя связано с этим распределением, мы определяем его как , поэтому и . Это также дает следующее полное распределение смеси:f z ( t ) = f ( t | z = 1 ) S z ( t ) = S ( t | z = 1 ) z = 0 t infZзнак равно1еZ(T)знак равное(T|Zзнак равно1)SZ(T)знак равноS(T|Zзнак равно1)Zзнак равно0TинфS ( t | z = 0 ) = 1е(T|Zзнак равно0)знак равно0S(T|Zзнак равно0)знак равно1

S ( т ) = 1 - р + р S г ( т )е(T)знак равноΣязнак равно01пяе(T|Zзнак равноя)знак равнопе(T|Zзнак равно1) и S(T)знак равно1-п+пSZ(T)

Перейдем к определению общей формы вероятности:

L(θ;Икся)знак равноΠяе(Tя;θ)δяS(Tя;θ)1-δяS(Lя)τя

Теперь наблюдается только частично, когда , иначе оно неизвестно. Полная вероятность становитсяδ = 1Zδзнак равно1

L(θ,п;Икся)знак равноΠя((пеZ(Tя;θ))Zя)δя((1-п)(1-Zя)(пSZ(Tя;θ))Zя)1-δя((1-п)(1-Zя)(пSZ(Lя;θ))Zя)τя

где - вес соответствующего распределения (возможно, связанный с некоторыми ковариатами и их соответствующими коэффициентами некоторой функцией связи). В большинстве литератур это упрощается до следующего логарифмического правдоподобияп

(ziln(p)+(1p)ln(1p)τi(ziln(p)+(1zi)ln(1p))+δizifz(ti;θ)+(1δi)ziSz(ti;θ)τiSz(Li;θ))

Для M-шага эта функция максимизируется, хотя не полностью в 1 методе максимизации. Вместо этого мы не хотим, чтобы это можно было разделить на части .L(θ,п;)знак равноL1(θ,)+L2(п,)

Для k: th + 1 E-шага мы должны найти ожидаемое значение (частично) ненаблюдаемых скрытых переменных . Мы используем тот факт, что для , то . δ = 1 z = 1Zяδзнак равно1Zзнак равно1

Е(Zя|Икся,θ(К),п(К))знак равноδя+(1-δя)п(Zязнак равно1;θ(К),п(К)|Икся)

Здесь мы имеемп(Zязнак равно1;θ(К),п(К)|Икся)знак равноп(Икся;θ(К),п(К)|Zязнак равно1)п(Zязнак равно1;θ(К),п(К))п(Икся;θ(К),п(К))

что дает намп(Zязнак равно1;θ(К),п(К)|Икся)знак равнопSZ(Tя;θ(К))1-п+пSZ(Tя;θ(К))

(Обратите внимание, что , поэтому наблюдаемое событие отсутствует, поэтому вероятность данных определяется функцией распределения хвоста.δязнак равно0Икся

Хороший парень майк
источник
Не могли бы вы написать переменные нашей задачи с самого начала и ваши уравнения E и M?
Альберто
1
Конечно, я отредактировал вопрос с более подробной информацией о E и M-step
Good Guy Mike
Для пояснения, нанесенные значения представляют собой полный MLE с учетом оценочных значений для неполных данных.
Хороший парень Майк
Что такое ? Я не понимаю, «хотя с этим распределением не связано t, мы определяем его как inf ...». SZ
Wij
1
EM-алгоритм напрямую максимизирует ожидаемую вероятность полных данных, но может гарантировать увеличение вероятности наблюдаемых данных. Вы проверяете увеличение вероятности наблюдаемых данных?
Рандель

Ответы:

6

Цель EM - максимизировать наблюдаемую вероятность регистрации данных,

L(θ)знак равноΣяпер[ΣZп(Икся,Z|θ)]

К сожалению, это трудно оптимизировать в отношении . Вместо этого EM многократно формирует и максимизирует вспомогательную функциюθ

Q(θ,θT)знак равноЕZ|θT(Σяперп(Икся,Zя|θ))

Если максимизирует , EM гарантирует, чтоθT+1Q(θ,θT)

L(θT+1)Q(θT+1,θT)Q(θT,θT)знак равноL(θT)

Если вы хотите точно знать, почему это так, хорошее объяснение дает раздел 11.4.7 « Машинного обучения Мерфи : вероятностная перспектива» . Если ваша реализация не удовлетворяет этим неравенствам, вы где-то допустили ошибку. Говоря такие вещи, как

У меня близко к идеальной подгонке, указывая, что нет ошибок программирования

опасный. Благодаря большому количеству алгоритмов оптимизации и обучения очень легко совершать ошибки, но в большинстве случаев все равно получать правильные ответы. Мне нравится интуиция, что эти алгоритмы предназначены для работы с грязными данными, поэтому неудивительно, что они также хорошо справляются с ошибками!


На другой половине вашего вопроса,

Существует ли обычный поиск эвристический или аналогично, чтобы увеличить вероятность нахождения глобального минимума (или максимума)

Случайный перезапуск - самый простой подход; Следующим наиболее простым, вероятно, является моделируемый отжиг по начальным параметрам. Я также слышал о варианте EM, называемом детерминированным отжигом , но я не использовал его лично, поэтому не могу вам рассказать об этом.

Энди Джонс
источник
1
Хороший ответ (+1). Было бы еще лучше, если бы вы включили формальные ссылки (в частности, ссылку на частично цитируемый источник «Машинное обучение: вероятностная перспектива»).
Александр Блех
Большое спасибо за ответ. Я обнаружил, что алгоритм корректно сходится теперь после исправления ошибки в коде, но только когда я исключаю свои усеченные данные. В противном случае это выходит из строя. Я считаю, что это результат некоторых ошибок.
Хороший парень Майк
Фактически, проблема в том, что я имею дело с «гетерогенным усечением», то есть для каждого наблюдения существует отдельная точка усечения , а не единодушный порог усечения для всех наблюдений. Я никогда не сталкивался или не могу найти эти настройки в литературе, поэтому я не могу проверить, правильно ли я их решаю. Если бы вы случайно увидели эту настройку, я хотел бы взглянуть на эти ссылки! Lя
Хороший парень Майк