Что такое интуитивное объяснение Echo State Networks?

17

Я новичок в Recurrent Neural Networks (RNN) и все еще изучаю концепции. На абстрактном уровне я понимаю, что сеть эхо-состояний (ESN) способна (повторно) создавать последовательность входов, то есть сигнал, даже после того, как вход был удален. Тем не менее, я нашел статью Scholarpedia слишком трудной для понимания и полного понимания.

Может кто-нибудь объяснить, как математически работает обучение в простейшей форме.

tejaskhot
источник

Ответы:

17

Echo State Network является примером более общей концепции Reservoir Computing . Основная идея ESN состоит в том, чтобы получить преимущества от RNN (обработать последовательность входов, которые зависят друг от друга, то есть временные зависимости, такие как сигнал), но без проблем обучения традиционной RNN, такой как проблема исчезающего градиента .

ESN достигают этого, имея относительно большой резервуар из редко соединенных нейронов, используя сигмоидальную передаточную функцию (относительно размера входного сигнала, что-то вроде 100-1000 единиц). Соединения в резервуаре назначаются один раз и являются полностью случайными; веса резервуара не тренируются. Входные нейроны соединяются с резервуаром и подают входные активации в резервуар - им тоже присваиваются нетренированные случайные веса. Единственными весами, которые обучаются, являются выходные веса, которые соединяют резервуар с выходными нейронами.

При обучении входные данные будут подаваться в резервуар, а выходные данные учителя будут применяться к выходным единицам. Состояния коллектора фиксируются с течением времени и сохраняются. После того как все входные данные для обучения были применены, можно использовать простое применение линейной регрессии между зафиксированными состояниями коллектора и целевыми выходными данными. Эти выходные веса могут быть затем включены в существующую сеть и использованы для новых входных данных.

Идея состоит в том, что редкие случайные соединения в резервуаре позволяют эхо-сигналам предыдущих состояний даже после того, как они прошли, так что если сеть получает новый ввод, который похож на то, чему она обучалась, динамика в резервуаре начнет следуйте траектории активации, соответствующей входу, и таким образом можете подать сигнал, совпадающий с тем, на чем он обучен, и если он хорошо обучен, он сможет обобщить то, что уже видел, следуя траекториям активации, которые имели бы смысл с учетом входного сигнала вождения резервуара.

Преимущество этого подхода заключается в невероятно простой процедуре обучения, поскольку большинство весов назначаются только один раз и случайным образом. Тем не менее, они способны фиксировать сложную динамику с течением времени и способны моделировать свойства динамических систем. Безусловно, самые полезные документы, которые я нашел на ESN:

Они оба имеют простые для понимания объяснения в сочетании с формализмом и выдающимися советами по созданию реализации с руководством по выбору подходящих значений параметров.

ОБНОВЛЕНИЕ: Книга глубокого обучения от Goodfellow, Bengio и Courville содержит чуть более подробное, но все же приятное обсуждение на высоком уровне сетей Echo State. В разделе 10.7 обсуждается исчезающая (и взрывающаяся) проблема градиента и трудности изучения долгосрочных зависимостей. Раздел 10.8 посвящен сетям Echo State. В частности, подробно рассказывается о том, почему важно выбирать веса коллектора, которые имеют подходящее значение спектрального радиуса, - он работает вместе с нелинейными активационными единицами для обеспечения стабильности, в то же время распространяя информацию во времени.

adamconkey
источник
1

Обучение в ESN не является первоочередной задачей для адаптации весов, более того, соответственно, выходной уровень узнает, какие выходные данные генерировать для текущего состояния сети. Внутреннее состояние основано на динамике сети и называется динамическим состоянием коллектора. Чтобы понять, как формируются состояния пласта, нам нужно взглянуть на топологию ESN.

Топология ESN

Единицы ввода подключены к нейронам во внутренних единицах (единицах резервуара), веса инициализируются случайным образом. Единицы коллектора случайно и редко связаны, а также имеют случайные веса. Блок вывода также подключен ко всем блокам резервуара, таким образом, принимает состояние резервуара и вырабатывает соответствующий выход.

Активация входа повышает динамику сети. Сигнал проходит временных шагов через рекуррентно подключенные резервуарные блоки. Вы можете представить это как эхо, повторяющееся в сети раз (которое искажается). Единственными весами, которые адаптируются, являются весовые коэффициенты для единицы вывода. Это означает, что выходной слой узнает, какой выход должен принадлежать данному состоянию резервуара. Это также означает, что обучение становится задачей линейной регрессии.TT

Прежде чем мы сможем объяснить, как обучение работает в деталях, мы должны объяснить и определить некоторые вещи:

Принудительное принуждение означает ввод временных рядов подачи в сеть, а также соответствующий требуемый выход (задержка по времени). Подача желаемого выхода при обратно называется выходной обратной связью. Поэтому нам нужны некоторые случайно инициализированные веса, хранящиеся в матрице . На рисунке 1 эти края отображаются пунктирными стрелками.TTWеб

Определения переменных:

  • р = количество резервуарных единиц,
  • о = количество выходных единиц,
  • T = количество временных шагов,
  • о = количество выходных единиц.
  • T = матрица (размером x ), которая содержит желаемый результат для каждого временного шага.Tо

Наконец, как тренировка работает в деталях?

  • Запишите состояния резервуара для временных шагов при применении принудительного воздействия со стороны учителя. Выходные данные: Матрица из ( x ) пластовых состояний.TMTр
  • Определите матрицу выходных весов которая содержит конечные выходные весы. Он может быть рассчитан с использованием любого метода регрессии, например, с использованием псевдообратного. Это означает, что посмотрите на состояния коллектора и найдите функцию, чтобы отобразить их умноженные на выходные веса с выходными данными. Математически: ПриблизительноWоUTMWоUTзнак равноT->WоUTзнак равноMT-1

Поскольку обучение очень быстрое, мы можем опробовать множество сетевых топологий, чтобы получить подходящую.

Чтобы измерить производительность ESN:

  • Далее запустите Echo State Network без принудительного воздействия учителя (собственный выходной сигнал возвращается в динамический резервуар ESN через ).Wеб
  • Производительность записи, например, квадратичные ошибки||MWоUT-T||2

Спектральный радиус и ESN

Некоторые умные люди доказали, что свойство эхо-состояния ESN может быть дано только в том случае, если Spec-tralрадиус матрицы веса коллектора меньше или равен . Свойство Echo State означает, что система забывает свои входные данные через ограниченное время. Это свойство необходимо для ESN, чтобы не взорваться в деятельности и быть в состоянии учиться.1

маньяк
источник