Скажем, зависит от . Строго говоря,α
если и α обе случайные величины, мы могли бы написать p ( X ∣ α ) ;
однако, если - случайная величина, а α - параметр, мы должны написать p ( X ; α ) .
Я заметил несколько раз, что сообщество машинного обучения, кажется, игнорирует различия и злоупотребляет терминами.
Например, в известной модели LDA, где - это параметр Дирихле, а не случайная величина.
Разве это не должно быть ? Я вижу, что многие люди, в том числе авторы оригинальной статьи LDA, пишут это как p ( θ ∣ α ) .
machine-learning
terminology
Sibbs Gambling
источник
источник
Ответы:
Я думаю, что это больше о байесовской / не байесовской статистике, чем машинное обучение против статистики.
В байесовской статистике параметр моделируется также как случайные величины. Если у вас есть совместное распределение для , p ( X ∣ α ) является условным распределением, независимо от физической интерпретации X и α . Если рассматривать только фиксированные α s или иначе не ставить распределение вероятностей по α , вычисления с p ( X ; α ) точно такие же, как с p ( X ∣ α ) )X,α p(X∣α) X α α α p(X;α) p(X∣α) p(α) , Кроме того, в любой момент можно принять решение о расширении модели с фиксированными значениями до уровня, в котором имеется предварительное распределение по αα α α
Аргумент о том, можно ли написать как p ( X ∣ α ) , также возник в комментариях к сообщению Эндрю Гельмана в блоге. Неправильное понимание значения p . Например, Ларри Вассерман считал, что ∣p(X;α) p(X∣α) p ∣ не допускается, если нет кондиционирования от соединения, в то время как Эндрю Гельман придерживался противоположного мнения.
источник