Графические модели и машины Больцмана связаны математически?

10

Хотя я фактически занимался программированием на машинах Больцмана в классе физики, я не знаком с их теоретической характеристикой. Напротив, я знаю скромное количество о теории графических моделей (о первых нескольких главах книги Лауритцена « Графические модели» ).

Вопрос: Есть ли какая-либо значимая связь между графическими моделями и машиной Больцмана? Является ли машина Больцмана типом графической модели?

Очевидно, что машина Больцмана является типом нейронной сети. Я слышал, что некоторые нейронные сети математически связаны с графическими моделями, а некоторые нет.

Связанные вопросы о CrossValidated, которые не отвечают на мой вопрос:
Это похоже на предыдущий вопрос, который задавался ранее: Какова связь между иерархическими моделями, нейронными сетями, графическими моделями, байесовскими сетями? но более конкретно.

Более того, принятый ответ на этот вопрос не проясняет мою путаницу - даже если узлы в стандартном графическом представлении нейронной сети не представляют случайные величины, это не обязательно означает, что такого представления не существует. В частности, я думаю о том, как узлы в типичном графическом представлении цепей Маркова представляют собой набор возможных состояний, а не случайных величин , но можно также создать график, показывающий отношения условной зависимости междуX IXiXi, что показывает, что каждая цепь Маркова является марковским случайным полем. В ответе также говорится, что нейронные сети (предположительно включая машины Больцмана) являются «дискриминационными», но не дают более подробных объяснений того, что означает это утверждение, и при этом не является очевидным последующим вопросом «графические модели не являются дискриминационными?» на имя. Аналогичным образом, принятый ответ ссылается на веб-сайт Кевина Мерфи (на самом деле я читал некоторые из его кандидатских диссертаций при изучении байесовских сетей), но этот сайт обсуждает только байесовские сети и вообще не упоминает нейронные сети - таким образом, он не освещает, как они разные.

Этот другой вопрос, вероятно, больше всего похож на мой: математическое моделирование нейронных сетей как графических моделей. Однако ни один из ответов не был принят, и аналогичным образом только дают ссылки, но не объясняют ссылки (например, этот ответ ). Хотя однажды я надеюсь, что смогу понять ссылки, сейчас я нахожусь на базовом уровне знаний и был бы очень признателен за ответ, который является максимально упрощенным. Кроме того, курс Торонто, на который есть ссылка в верхнем ответе ( http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml ), решает эту проблему, но не очень подробно. Кроме того, примечания к одной лекции, которые могут ответить на мой вопрос , не доступны для общественности.

25 марта Лекция 13б: Сети веры 7:43. Для этого слайда, имейте в виду машины Больцмана. Там тоже есть скрытые юниты и видимые юниты, и все это вероятностно. BM и SBN имеют больше общего, чем различий. 9:16. В настоящее время «графические модели» иногда рассматриваются как особая категория нейронных сетей, но в истории, описанной здесь, они считались очень разными типами систем.

Chill2Macht
источник

Ответы:

7

Машины Больцмана против ограниченных машин Больцмана

AFAIK машины Больцмана - это тип графической модели, а модель, связанная с нейронными сетями, - это машины Больцмана с ограничениями (RBM).

Разница между машинами Больцмана и ограниченными машинами Больцмана из книги « Машинное обучение вероятностная перспектива» введите описание изображения здесь

УКР против нейронных сетей

Для УОКР (ссылка: Практическое руководство по обучению ограниченных машин Больцмана Джеффри Хинтона ) где и соответствуют видимым и скрытым единицам на приведенном выше рисунке, а - это функция Sigmoid.

p(v,h)=1Zexp(aivi+bjhj+vihjwij)
p(hj=1|v)=σ(bj+viwij)
v ч σ ( )
p(vi=1|h)=σ(ai+hjwij)
vhσ()

Условные вероятности вычисляются в одной и той же форме сетевых уровней, поэтому обученные веса RBM могут использоваться непосредственно в качестве весов нейронных сетей или в качестве отправной точки обучения.

Я думаю, что сам RBM представляет собой скорее графическую модель, чем тип нейронной сети, поскольку он не ориентирован, имеет четко определенные условные зависимости и использует собственные алгоритмы обучения (например, контрастную дивергенцию).

dontloo
источник
2
Хорошо, это действительно отличный ответ с отличной ссылкой. Также заставляет меня захотеть почитать книгу профессора Мерфи еще раньше. Я ценю время, которое вы потратили на этот исчерпывающий ответ.
Chill2Macht
2
@William рад помочь :)
августа
2
Хороший ответ. Не могли бы вы документировать нотацию немного больше? (Я недавно прочитал что-то связанное, я полагаю, поэтому я распознаю видимые узлы, скрытые узлы, логистическую функцию, но другие могут этого не делать.) Также может быть полезно включить полную цитату для защиты от ссылки -rot. h = σ ( ) =v=h=σ()=
GeoMatt22
2
@ GeoMatt22 спасибо, я обновил ответ.
не
3

Это только подтверждает / подтверждает принятый ответ, что машины Больцмана действительно являются частным случаем графической модели. В частности, этот вопрос рассматривается на стр. 127-127 Коллера, Фридмана, Вероятностные графические модели: принципы и методы , во вставке 4.C.

Одним из самых ранних типов моделей сетей Маркова является модель Изинга, которая впервые возникла в статистической физике как модель энергии физической системы, включающей систему взаимодействующих атомов ... С моделью Изинга связано распределение машин Больцмана. Полученная энергия может быть переформулирована в терминах модели Изинга (упражнение 4.12).

Как модель Изинга, первоначально концепция из литературы по статистической механике, может быть сформулирована как графическая модель, подробно описана в примере 3.1, раздел 3.3, на стр. 41-43 Уэйнрайта, Джордан, Графические модели, Экспоненциальная Семьи и вариационный вывод .

Очевидно, модель Изинга сыграла важную роль в создании области графических моделей в конце 1970-х и начале 1980-х годов, по крайней мере, на основе того, что говорит Штеффен Лауритцен в предисловии и введении к своей книге « Графические модели» . Эта интерпретация также, кажется, подтверждается разделом 4.8 в вышеприведенной книге Коллера и Фридмана.

Разработка машин Больцмана из модели Изинга, возможно, была независимым явлением, основанным на том же разделе Коллера и Фридмана, который утверждает, что «машины Больцмана были впервые предложены Хинтоном и Сейновским (1983)», который, кажется, имеет произошло после первоначальной работы по разработке марковских случайных полей как обобщений модели Изинга, хотя работа над этой статьей могла бы начаться гораздо раньше, чем в 1983 году.


Моя путаница в отношении этих отношений, когда я писал этот вопрос более года назад, проистекала из того факта, что я впервые столкнулся как с моделью Изинга, так и с моделью машины Больцмана для нейронов, в литературе по физике. Как отмечают Коллер и Фридман, литература в сообществе статистической физики о модели Изинга и связанных с ней понятиях действительно обширна.

По моему опыту, это также довольно замкнутый, в том смысле, что хотя статистики и ученые, изучающие графические модели, будут упоминать, как область связана со статистической механикой, в литературе по статистической физике я не нашел упоминаний о связи с другими областями или пытается использовать это. (Следовательно, это заставляет меня сомневаться и смущаться из-за того, что могут быть какие-то такие связи с другими областями.)

Для примера взгляда физика как на модель Изинга, так и на машину Больцмана, см. Учебник из курса, где я впервые узнал об этом. В нем также упоминаются средние полевые методы, если я правильно помню, что-то, что также обсуждалось в приведенной выше статье Джордана и Уэйнрайта.

Chill2Macht
источник
2
связь может быть очень тонкой и основываться главным образом на использовании функции разбиения, которая лежит в основе статистической механики и на которой берется экспонента суммы внутренних произведений. Функция softmax также использует эту форму, так что номенклатура поддерживает наследие терминов, и многие физики работают (ed) в ML (например, Кристофер Бишоп).
Васс