Я нашел эти заметки очень полезными для выяснения того, что происходит в дополнительном материале.
Я отвечу на эти вопросы немного не в порядке для преемственности.
Первое: почему так
θ( 0 )≠ θ( 1 )
грамм0журнал( P( х ; θ ) )θ( 0 )θ( 1 )грамм0θ
Второе: почему неравенство жесткое, когда
Q ( z) = P( з| х; θ)
В сносках есть подсказка, где говорится:
равенство выполняется тогда и только тогда, когда случайная величина постоянна с вероятностью 1 (т. е. )Y= E[ у]
подразумевая, что наш выбор делает постоянным. Чтобы увидеть это, подумайте, что:Qп( Х , г; θ )Q ( z)
п( Х , г; θ ) = P( з| х; θ)P( х ; θ )
что делает нашу фракцию
п( з| х; θ)P( х ; θ )п( з| х; θ)= P( х ; θ )
Так что же такое и является ли оно постоянным? Хорошо, учтите, что мы вычисляем суммы по для которых этот член независим (постоянен). Давайте представим это как и это уравнение становится:п( х ; θ )ZС
журнал( ∑ZQ ( z) C) ≥∑ZQ ( z) журнал( C)
отсюда мы можем довольно быстро увидеть, что две стороны равны, так как ожидание постоянной будет такой постоянной независимо от веса ( )Q ( z)
И наконец: что такоеграммT
Ответ, приведенный в примечаниях, которые я связал, немного отличается от ответа в дополнительных примечаниях, но они отличаются только константой, и мы максимизируем его, поэтому он не имеет значения. Тот, что в примечаниях (с деривацией):
граммT( θ ) = log( P( х | θ( т )) ) + ∑Zп( з| х; θ( т )) журнал(P( х | z; θ ) P( з| θ)п( з| х; θ( т )) P( х | θ( т )))
Эта сложная формула не обсуждается подробно в дополнительных примечаниях, вероятно потому, что многие из этих терминов будут константами, которые выбрасываются, когда мы максимизируем. Если вам интересно, как мы сюда попали, я рекомендую эти заметки, которые я связал.
Используя аргумент, аналогичный приведенному в ответе на второй вопрос, термин в журнале равен 1 для поэтому сумма в сумме исчезает и как и ожидалось.граммT( θ( т ))граммT( θ( т )) =журналп( х | θ( т ))