Хороший учебник для ограниченных машин Больцмана (RBM)

10

Я изучаю ограниченную машину Больцмана (RBM) и у меня возникают некоторые проблемы с пониманием логарифмических расчетов вероятности относительно параметров RBM. Несмотря на то, что было опубликовано много исследовательских работ по УОКР, подробных шагов по производным инструментам нет. После поиска в Интернете я смог найти их в этом документе:

Фишер А. & Игель С. (2012). Введение в ограниченные машины Больцмана. В L. Alvarez et al. (Ред.): CIARP, LNCS 7441, с. 14–36, Springer-Verlag: Берлин-Гейдельберг. ( pdf )

Однако детали этого документа слишком сложны для меня. Может кто-нибудь указать мне хороший учебник / набор лекционных заметок о RBM?

Изменить: @David, запутанный раздел показан ниже (уравнение 29 на странице 26):

$\begin{aligned} \frac{\partial \ln L (θ | v)}{\partial w_{i j}} & = - \sum_{h} p (h | v) \frac{\partial E (v, h)}{\partial w_{i j}} + \sum_{v, h} p (v, h) \frac{\partial E (v, h)}{\partial w_{i j}} \\ = \sum_{h} p (h | v) h_{i} v_{j} - \sum_{v} p (v) \sum_{h} p (h | v) h_{i} v_{j} \\ (29) & = p (H_{i} = 1 | v) v_{j} - \sum_{v} p (v) p (H_{i} = 1 | v) v_{j} . \end{aligned}$ $\begin{align} \frac{\partial\ln\mathcal{L}(\theta|v)}{\partial w_{ij}} &= -\sum_h p(h|v)\frac{\partial E(v, h)}{\partial w_{ij}} + \sum_{v,h} p(v,h)\frac{\partial E(v,h)}{\partial w_{ij}} \\[5pt] &= \sum_h p(h|v)h_iv_j - \sum_v p(v) \sum_h p(h|v)h_iv_j \\[5pt] &= \color{orange}{\boxed{\color{black}{p(H_i=1|v)}}}v_j - \sum_v p(v) \color{orange}{\boxed{\color{black}{p(H_i=1|v)}}}v_j\; . \tag{29} \end{align}$

references rbm Упул
источник

Можете ли вы быть более конкретными о том, какие шаги вас смущают?

Дэвид Дж. Харрис

1

хорошее прочтение - глава 5 изучения глубоких архитектур для ИИ ( iro.umontreal.ca/~bengioy/papers/ftml_book.pdf )

dksahuji

@dksahuji спасибо за INFO, также проф: Бенжио пишет DL, а начальный черновик доступен на iro.umontreal.ca/~bengioy/dlbook

Upul

Этот урок имеет объяснения по математике RBM ( Учебник по машинам Больцмана с ограничениями ).

Цзян Сян

7

Я знаю, что уже немного поздно, но, возможно, это поможет. Чтобы получить первый член вашего уравнения, необходимо выполнить следующие шаги: Мы предположили, что условная независимость между скрытые единицы, учитывая видимые единицы, существуют. Таким образом, мы можем факторизовать условное совместное распределение вероятностей для скрытых состояний.

\begin{aligned} \sum_{h} p (h | v) h_{i} v_{j} & = v_{j} \sum_{h_{1}} . . . \sum_{h_{i}} . . . \sum_{h_{n}} p (h_{1}, . . ., h_{i}, . . . h_{n} | v) h_{i} \\ = v_{j} \sum_{h_{i}} \sum_{h_{_i}} p (h_{i}, h_{_i} | v) h_{i} \end{aligned}

$\begin{align} \sum_{\mathbf{h}} p(\mathbf{h} | \mathbf{v})h_iv_j &= v_j \sum_{h_1}...\sum_{h_i}...\sum_{h_n} p(h_1,...,h_i,...h_n | \mathbf{v}) h_i \\[5pt] &= v_j \sum_{h_i} \sum_{\mathbf{h_{\_ i}}}p(h_i, \mathbf{h_{\_i}} | \mathbf{v}) h_i \end{align}$

\begin{aligned} = v_{j} \sum_{h_{i}} \sum_{h_{_i}} p (h_{i} | v) h_{i} p (h_{_i} | v) \\ = v_{j} \sum_{h_{i}} p (h_{i} | v) h_{i} \sum_{h_{_i}} p (h_{_i} | v) \end{aligned}

$\begin{align} &= v_j \sum_{h_i} \sum_{\mathbf{h_{\_ i}}} p(h_i | \mathbf{v}) h_i \: p(\mathbf{h_{\_ i}}|\mathbf{v}) \\[5pt] &= v_j \sum_{h_i} p(h_i | \mathbf{v}) h_i \: \sum_{\mathbf{h_{\_ i}}} p(\mathbf{h_{\_ i}}|\mathbf{v}) \end{align}$ Последний член равен , так как мы суммируем по всем состояниям. Таким образом, то, что осталось, это первый член. Поскольку принимает только состояния и мы получаем:

1

$1$

h_{i}

$h_i$

1

$1$

0

$0$

= v_{j} p (H_{i} = 1 | v)

$\hspace{-25mm}= v_j \: p(H_i = 1 | \mathbf{v})$

пешн
источник

7

На сайте глубокого обучения есть достойное руководство по RBM .
Этот пост в блоге ( Введение в ограниченные машины Больцмана ) написан на более простом языке и очень хорошо объясняет основы RBMS:
Также, возможно, лучшим справочником является курс Джеффа Хинтона « Нейронные сети» на Coursea:

Я не уверен, если вы можете получить доступ к классу и видео после окончания класса, хотя.

sjm.majewski
источник

2

Есть еще люди, записывающиеся на курс Coursera и публикующие на форуме. Вы по-прежнему можете просматривать все лекции и получать доступ ко всем тестам и программным заданиям (среди тестов). Эта информация, вероятно, будет действительна, пока курс не будет предложен снова. Я рекомендую записаться на курс только для просмотра или загрузки материала.

Дуглас Заре

1

Левый оранжевый прямоугольник показывает ожидаемое значение градиента энергии по всем скрытым конфигурациям, учитывая, что какой-то видимый вектор зафиксирован на видимых единицах (ожидание по данным, поскольку он использует выборку из вашего тренировочного набора). Сам термин является произведением (1) вероятности увидеть конкретную скрытую единицу i, учитывая, что некоторый вектор v зажат на видимых единицах и (2) состояние конкретной видимой единицы j.

Правый оранжевый прямоугольник - то же самое, что и левый, за исключением того, что вы делаете то, что находится в левом оранжевом прямоугольнике для каждой возможной видимой конфигурации, а не только тот, который закреплен на видимых единицах (ожидание по сравнению с моделью, поскольку ничего не зафиксировано). на видимых единицах).

Авалон
источник

1

Глава 5 курса Уго Ларошеля по машинному обучению ( видео ) - лучшее введение, которое я нашел до сих пор.

Производная от функции потерь не выводится в этих лекциях, но это не сложно сделать (я могу опубликовать просмотр моих расчетов, если это необходимо, но на самом деле это не так сложно). Я все еще ищу хороший учебник по этой теме, но в основном это только статьи. Есть хороший обзор статей в главе 20 книги глубокого обучения Бенджо.

jakab922
источник

Хороший учебник для ограниченных машин Больцмана (RBM)

Ответы: