Естественная интерпретация гиперпараметров LDA

21

Может кто-нибудь объяснить, какова естественная интерпретация гиперпараметров LDA? ALPHAи BETAявляются параметрами распределения Дирихле для (по документу) темы и (по теме) словосочетания соответственно. Однако кто-то может объяснить, что значит выбирать большие значения этих гиперпараметров по сравнению с меньшими значениями? Означает ли это, что в документах должно быть какое-то предварительное убеждение с точки зрения разреженности тем и взаимной исключительности тем с точки зрения слов?

Этот вопрос касается скрытого распределения Дирихле, но комментарий BGReene, приведенный ниже, относится к линейному дискриминантному анализу, который также сбивает с толку сокращение LDA.

interpretation prior topic-models hyperparameter abhinavkulkarni
источник

Я думаю, что вам нужно дать более подробную информацию о том, какую формулировку LDA вы используете. Как правило, эти параметры имеют только модели RDA, обычно LDA полностью определяется средним вектором, ковариационной матрицей и априорными вероятностями.

BGreene

11

Дэвид Блей (David Blei) рассказывает о LDA студентам летнего класса: http://videolectures.net/mlss09uk_blei_tm/

В первом видео он подробно описывает основную идею моделирования темы и то, как в игру вступает дистрибуция Дирихле. Обозначение на табличке объясняется так, как будто все скрытые переменные наблюдаются, чтобы показать зависимости. В основном темы - это распределение по словам и распределение документов по темам.

Во втором видео он показывает эффект альфы с некоторыми примерами графиков. Чем меньше альфа, тем более редким является распределение. Кроме того, он вводит некоторые подходы вывода.

Карстен
источник

7

это не должен быть принятый ответ

Самсамара

Думаю ты прав. Я полностью забыл, что я написал это.

Карстен

ой! не ожидал увидеть комментарий от автора! хе-хе :)

Самсамара

48

Ответ зависит от того, принимаете ли вы симметричное или асимметричное распределение дирихле (или, технически, является ли базовая мера равномерной). Если не указано иное, большинство реализаций LDA предполагают, что распределение симметрично.

Для симметричного распределения высокое альфа-значение означает, что каждый документ, вероятно, будет содержать смесь большинства тем, а не какой-либо отдельной темы. Низкое альфа-значение налагает меньше таких ограничений на документы и означает, что более вероятно, что документ может содержать сочетание нескольких или даже только одной из тем. Аналогично, высокое бета-значение означает, что каждая тема может содержать смесь большинства слов, а не какого-либо конкретного слова, в то время как низкое значение означает, что тема может содержать смесь всего нескольких слов.

Если, с другой стороны, распределение является асимметричным, высокое альфа-значение означает, что конкретное распределение темы (в зависимости от базовой меры) более вероятно для каждого документа. Точно так же высокие бета-значения означают, что каждая тема, скорее всего, будет содержать определенное словосочетание, определенное базовой мерой.

На практике высокое альфа-значение приведет к тому, что документы будут более схожими с точки зрения того, какие темы они содержат. Высокое бета-значение также приведет к тому, что темы будут более схожими с точки зрения того, какие слова они содержат.

Таким образом, да, альфа-параметры определяют предварительные представления о разреженности / однородности темы в документах. Я не совсем уверен, что вы подразумеваете под «взаимной исключительностью тем в терминах слов».

В более общем смысле это параметры концентрации для распределения дирихле, используемые в модели LDA. Чтобы получить некоторое интуитивное понимание того, как это работает, эта презентация содержит несколько хороших иллюстраций, а также хорошее объяснение LDA в целом.

$(\alpha_1, \alpha_2, ... ,\alpha_K)$ $u = (u_1, u_2, ..., u_K)$ $\alpha$ $\alpha * \textbf{u} = (\alpha_1, \alpha_2, ... ,\alpha_K)$ $\alpha$ $(\alpha_1, \alpha_2, ... ,\alpha_K)$ $(\alpha_1, \alpha_2, ... ,\alpha_K)$

AMO
источник

2

+1 информативный ответ! Я хочу спросить, насколько высокое / низкое - это высокое / низкое значение для альфы и беты в целом?

Самсамара

Предполагается, что бета-версия - это распределение слов по каждой теме (матрица), верно? Так как же одно значение переводится в матрицу?

Ноамико

Прав ли я, заключив, что высокая альфа означает, что документы похожи, а высокая бета означает, что темы похожи?

Льюистрик

Естественная интерпретация гиперпараметров LDA

Ответы: