У меня есть смешанная модель, в которой я хочу найти оценку максимального правдоподобия для данного набора данных и набора частично наблюдаемых данных . Я реализовал и E-шаг (вычисление ожидания учетом и текущих параметров ), и M-шаг, чтобы минимизировать отрицательное логарифмическое правдоподобие с учетом ожидаемого .z z x θ k z
Как я понял, максимальная вероятность увеличивается для каждой итерации, это означает, что отрицательная логарифмическая вероятность должна уменьшаться для каждой итерации? Однако, как я повторяю, алгоритм действительно не дает уменьшающихся значений логарифмического правдоподобия. Вместо этого оно может уменьшаться и увеличиваться. Например, это были значения отрицательного логарифмического правдоподобия до сходимости:
Есть ли здесь, что я неправильно понял?
Кроме того, для смоделированных данных, когда я выполняю максимальное правдоподобие для истинных скрытых (ненаблюдаемых) переменных, у меня есть близкое к идеальному подгонку, что указывает на отсутствие ошибок программирования. Для EM-алгоритма он часто сходится к явно неоптимальным решениям, особенно для определенного подмножества параметров (то есть пропорций классифицирующих переменных). Хорошо известно, что алгоритм может сходиться к локальным минимумам или стационарным точкам, существует ли обычный поиск по эвристике или аналогично для увеличения вероятности нахождения глобального минимума (или максимума) . Я полагаю, что для этой конкретной проблемы существует много ошибочных классификаций, потому что в двумерной смеси одно из двух распределений принимает значения с вероятностью один (это смесь времен жизни, где истинное время жизни определяетсяz z где указывает принадлежность к любому распределению. Индикатор конечно же, подвергается цензуре в наборе данных.
Я добавил вторую цифру, когда я начну с теоретического решения (которое должно быть близко к оптимальному). Однако, как видно, вероятность и параметры расходятся от этого решения в одно, явно уступающее.
редактировать: полные данные имеют вид где - наблюдаемое время для субъекта , указывает, связано ли время с фактическим событием или если он подвергается цензуре справа (1 обозначает событие, а 0 обозначает правую цензуру), - это время усечения наблюдения (возможно, 0) с индикатором усечения и, наконец, - это индикатор того, к какой популяции относится наблюдение (так как его двумерный нам нужно только рассмотреть 0 и 1). t i i δ i L i τ i z i
Для имеем функцию плотности , аналогично она связана с функцией распределения хвоста . Для интересующее событие не произойдет. Хотя связано с этим распределением, мы определяем его как , поэтому и . Это также дает следующее полное распределение смеси:f z ( t ) = f ( t | z = 1 ) S z ( t ) = S ( t | z = 1 ) z = 0 t infS ( t | z = 0 ) = 1
S ( т ) = 1 - р + р S г ( т ) и
Перейдем к определению общей формы вероятности:
Теперь наблюдается только частично, когда , иначе оно неизвестно. Полная вероятность становитсяδ = 1
где - вес соответствующего распределения (возможно, связанный с некоторыми ковариатами и их соответствующими коэффициентами некоторой функцией связи). В большинстве литератур это упрощается до следующего логарифмического правдоподобия
Для M-шага эта функция максимизируется, хотя не полностью в 1 методе максимизации. Вместо этого мы не хотим, чтобы это можно было разделить на части .
Для k: th + 1 E-шага мы должны найти ожидаемое значение (частично) ненаблюдаемых скрытых переменных . Мы используем тот факт, что для , то . δ = 1 z = 1
Здесь мы имеем
что дает нам
(Обратите внимание, что , поэтому наблюдаемое событие отсутствует, поэтому вероятность данных определяется функцией распределения хвоста.
источник
Ответы:
Цель EM - максимизировать наблюдаемую вероятность регистрации данных,
К сожалению, это трудно оптимизировать в отношении . Вместо этого EM многократно формирует и максимизирует вспомогательную функциюθ
Если максимизирует , EM гарантирует, чтоθт + 1 Q ( θ , θT)
Если вы хотите точно знать, почему это так, хорошее объяснение дает раздел 11.4.7 « Машинного обучения Мерфи : вероятностная перспектива» . Если ваша реализация не удовлетворяет этим неравенствам, вы где-то допустили ошибку. Говоря такие вещи, как
опасный. Благодаря большому количеству алгоритмов оптимизации и обучения очень легко совершать ошибки, но в большинстве случаев все равно получать правильные ответы. Мне нравится интуиция, что эти алгоритмы предназначены для работы с грязными данными, поэтому неудивительно, что они также хорошо справляются с ошибками!
На другой половине вашего вопроса,
Случайный перезапуск - самый простой подход; Следующим наиболее простым, вероятно, является моделируемый отжиг по начальным параметрам. Я также слышал о варианте EM, называемом детерминированным отжигом , но я не использовал его лично, поэтому не могу вам рассказать об этом.
источник