Может кто-нибудь объяснить, какова естественная интерпретация гиперпараметров LDA? ALPHA
и BETA
являются параметрами распределения Дирихле для (по документу) темы и (по теме) словосочетания соответственно. Однако кто-то может объяснить, что значит выбирать большие значения этих гиперпараметров по сравнению с меньшими значениями? Означает ли это, что в документах должно быть какое-то предварительное убеждение с точки зрения разреженности тем и взаимной исключительности тем с точки зрения слов?
Этот вопрос касается скрытого распределения Дирихле, но комментарий BGReene, приведенный ниже, относится к линейному дискриминантному анализу, который также сбивает с толку сокращение LDA.
interpretation
prior
topic-models
hyperparameter
abhinavkulkarni
источник
источник
Ответы:
Дэвид Блей (David Blei) рассказывает о LDA студентам летнего класса: http://videolectures.net/mlss09uk_blei_tm/
В первом видео он подробно описывает основную идею моделирования темы и то, как в игру вступает дистрибуция Дирихле. Обозначение на табличке объясняется так, как будто все скрытые переменные наблюдаются, чтобы показать зависимости. В основном темы - это распределение по словам и распределение документов по темам.
Во втором видео он показывает эффект альфы с некоторыми примерами графиков. Чем меньше альфа, тем более редким является распределение. Кроме того, он вводит некоторые подходы вывода.
источник
Ответ зависит от того, принимаете ли вы симметричное или асимметричное распределение дирихле (или, технически, является ли базовая мера равномерной). Если не указано иное, большинство реализаций LDA предполагают, что распределение симметрично.
Для симметричного распределения высокое альфа-значение означает, что каждый документ, вероятно, будет содержать смесь большинства тем, а не какой-либо отдельной темы. Низкое альфа-значение налагает меньше таких ограничений на документы и означает, что более вероятно, что документ может содержать сочетание нескольких или даже только одной из тем. Аналогично, высокое бета-значение означает, что каждая тема может содержать смесь большинства слов, а не какого-либо конкретного слова, в то время как низкое значение означает, что тема может содержать смесь всего нескольких слов.
Если, с другой стороны, распределение является асимметричным, высокое альфа-значение означает, что конкретное распределение темы (в зависимости от базовой меры) более вероятно для каждого документа. Точно так же высокие бета-значения означают, что каждая тема, скорее всего, будет содержать определенное словосочетание, определенное базовой мерой.
На практике высокое альфа-значение приведет к тому, что документы будут более схожими с точки зрения того, какие темы они содержат. Высокое бета-значение также приведет к тому, что темы будут более схожими с точки зрения того, какие слова они содержат.
Таким образом, да, альфа-параметры определяют предварительные представления о разреженности / однородности темы в документах. Я не совсем уверен, что вы подразумеваете под «взаимной исключительностью тем в терминах слов».
В более общем смысле это параметры концентрации для распределения дирихле, используемые в модели LDA. Чтобы получить некоторое интуитивное понимание того, как это работает, эта презентация содержит несколько хороших иллюстраций, а также хорошее объяснение LDA в целом.
источник