Является ли сообщество машинного обучения «обусловленным» и «параметризованным»?

13

Скажем, зависит от . Строго говоря,αXα

  • если и α обе случайные величины, мы могли бы написать p ( X α ) ;Xαp(Xα)

  • однако, если - случайная величина, а α - параметр, мы должны написать p ( X ; α ) .Xαp(X;α)

Я заметил несколько раз, что сообщество машинного обучения, кажется, игнорирует различия и злоупотребляет терминами.

Например, в известной модели LDA, где - это параметр Дирихле, а не случайная величина.α

введите описание изображения здесь

Разве это не должно быть ? Я вижу, что многие люди, в том числе авторы оригинальной статьи LDA, пишут это как p ( θ α ) .p(θ;α)p(θα)

Sibbs Gambling
источник
6
Говоря математически, вы всегда можете задать константу, так как это предельный случай случайной величины. С байесовской точки зрения все неизвестные рассматриваются как случайные величины, поэтому имеет смысл использовать условную нотацию повсюду.
Сиань
1
@ Сиань, я понимаю твою точку зрения на «обусловленность на константу». Но представьте, что я рисую из категориального распределения параметра θ , то есть X C a t ( θ ) . Могу ли я написать распределение как p ( X θ ) ? Это выглядит странно для меня, так как всегда можно установить фиксированное θ . р ( X ; θ ) выглядит более комфортно для меня. XθXCat(θ)p(Xθ)θp(X;θ)
Сиббс Азартные игры
4
Я не вижу проблемы в написании в этом частном случае. Еще раз, использование условных обозначений прокладывает путь для введения предыдущих распределений по каждому неизвестному параметру. p(Xθ)
Сиань

Ответы:

14

Я думаю, что это больше о байесовской / не байесовской статистике, чем машинное обучение против статистики.

В байесовской статистике параметр моделируется также как случайные величины. Если у вас есть совместное распределение для , p ( X α ) является условным распределением, независимо от физической интерпретации X и α . Если рассматривать только фиксированные α s или иначе не ставить распределение вероятностей по α , вычисления с p ( X ; α ) точно такие же, как с p ( X α ) )X,αp(Xα)Xαααp(X;α)p(Xα)p(α), Кроме того, в любой момент можно принять решение о расширении модели с фиксированными значениями до уровня, в котором имеется предварительное распределение по αααα

Аргумент о том, можно ли написать как p ( X α ) , также возник в комментариях к сообщению Эндрю Гельмана в блоге. Неправильное понимание значения p . Например, Ларри Вассерман считал, что p(X;α)p(Xα)p не допускается, если нет кондиционирования от соединения, в то время как Эндрю Гельман придерживался противоположного мнения.

Юхо Коккала
источник