У LDA есть два гиперпараметра, настройка их меняет навязанные темы.
Что альфа- и бета-гиперпараметры влияют на LDA?
Как меняется тема, если один или другой гиперпараметр увеличивается или уменьшается?
Почему они гиперпараметры, а не просто параметры?
topic-model
lda
parameter
Alvas
источник
источник
Ответы:
Распределение Дирихле является многомерным распределением. Мы можем обозначить параметры Дирихле как вектор размером K вида ~ , где - вектор размера параметров, а .1B(a)⋅∏ixai−1i a K ∑xi=1
Теперь LDA использует некоторые конструкции, такие как:
Предыдущие два являются дистрибутивами, которые вы на самом деле не видите из данных, поэтому они называются скрытыми или скрытыми.
Теперь в байесовском выводе вы используете правило Байеса для определения апостериорной вероятности. Для простоты, скажем, у вас есть данные и у вас есть модель для этих данных, управляемая некоторыми параметрами . Чтобы вывести значения для этих параметров, в полном байесовском выводе вы выведете апостериорную вероятность этих параметров, используя правило Байеса с Обратите внимание, что здесь приходитx θ
Параметры априора называются гиперпараметрами . Так, в LDA оба тематических распределения, поверх документов и над словами, также имеют соответствующие априорные значения, которые обычно обозначаются альфа и бета, и потому что параметры предыдущих распределений называются гиперпараметрами.
Теперь о выборе приоры. Если вы построите некоторые распределения Дирихле, вы заметите, что если отдельные параметры имеют одно и то же значение, pdf симметричен в симплексе, определяемом значениями , который является минимумом или максимумом для pdf в центре.αk x
Если все имеют значения ниже единицы, то максимум находится в углахαk
или может, если все значения одинаковы и больше 1, максимум будет найден в центре, какαk
Легко видеть, что если значения для не равны, симметрия нарушается, и максимум будет найден вблизи больших значений.αk
Кроме того, обратите внимание, что значения параметров априора дают гладкие pdf-значения распределения, так как значения параметров близки к 1. Поэтому, если у вас есть большая уверенность в том, что что-то четко распределено известным вам способом с высокой степенью достоверности, чем Значения, далекие от 1 в абсолютном значении, должны использоваться, если у вас нет такого рода знаний, чем значения, близкие к 1, закодируют этот недостаток знаний. Легко понять, почему 1 играет такую роль в распределении Дирихле из формулы самого распределения.
Другой способ понять это состоит в том, чтобы увидеть, что предшествующее кодирование предшествует знанию. В то же время вы можете подумать, что априор закодирует некоторые ранее просмотренные данные. Эти данные не были просмотрены самим алгоритмом, они были просмотрены вами, вы чему-то научились и можете предварительно моделировать в соответствии с тем, что вы знаете (выучили). Таким образом, в предыдущих параметрах (гиперпараметрах) вы также кодируете, насколько большой этот набор данных вы видели априори, потому что сумма может быть такой же, как и размер этого более или менее мнимого набора данных. Таким образом, чем больше предыдущий набор данных, тем больше достоверность, чем больше значений вы можете выбрать, тем острее поверхность приближается к максимальному значению, что также означает меньше сомнений.αk αk
Надеюсь, это помогло.
источник
Предполагая симметричные распределения Дирихле (для простоты), низкое альфа-значение придает больший вес тому, чтобы каждый документ состоял только из нескольких доминирующих тем (тогда как высокое значение вернет много более относительно доминирующих тем). Точно так же низкое значение бета придает большее значение тому, чтобы каждая тема состояла только из нескольких доминирующих слов.
источник