Что такое повторное обучение

20

Недавно я наткнулся на слово «Обучение периодическому усилению». Я понимаю, что такое «Рекуррентная нейронная сеть» и что такое «Обучение с подкреплением», но не смог найти много информации о том, что такое «Рекуррентное обучение с подкреплением».

Может кто-нибудь объяснить мне, что такое «периодическое обучение с подкреплением» и в чем разница между «периодическим обучением с подкреплением» и обычным «обучением с подкреплением», таким как алгоритм Q-Learning.

Отрицательный ноль
источник

Ответы:

15

Что такое «периодическое обучение с подкреплением»?

Рекуррентное обучение с подкреплением ( RRL ) впервые было введено для обучения торговых систем нейронных сетей в 1996 году. «Рекуррентный» означает, что предыдущий результат вводится в модель как часть ввода. Вскоре он был распространен на торговлю на валютном рынке.

Метод RRL был признан успешным методом машинного обучения для построения систем финансовой торговли.

В чем разница между «периодическим обучением с подкреплением» и обычным «обучением с подкреплением» (как алгоритм Q-Learning)?

В РРЛАХ подход явно отличается от динамического программирования и алгоритмов усиливающих такие как TD-обучение и Q-обучения , которые пытаются оценить значение функции для задачи управления.

Структура RRL позволяет создать простое и элегантное представление проблемы, избегает проклятия размерности Беллмана и предлагает убедительные преимущества в эффективности:

RRL производит реальные ценные действия (веса портфеля), естественно, не прибегая к методу дискретизации в Q-Learning .

RRL имеет более стабильную производительность по сравнению с Q-learning при работе с шумными наборами данных. Алгоритм Q-обучения более чувствителен к выбору функции значения (возможно) из-за рекурсивного свойства динамической оптимизации, в то время как алгоритм RRL более гибок в выборе целевой функции и экономит время вычислений.

С помощью RRL торговые системы могут быть оптимизированы путем максимизации функций производительности , таких как «прибыль» (доход после транзакций), «богатство», функции полезности богатства или коэффициенты производительности с поправкой на риск, такие как «коэффициент Шарпа».U()

Здесь вы найдете реализацию алгоритма RRL в Matlab.


Ссылки

Усиление обучения для торговли

Укрепление обучения для торговых систем и портфелей

Форекс торговля через периодическое обучение подкрепления

Торговля акциями с периодическим обучением подкреплению (RRL)

Алгоритм трейдинга с использованием Q-Learning и рекуррентного обучения

ИЗУЧЕНИЕ АЛГОРИТМОВ ДЛЯ АВТОМАТИЗИРОВАННОЙ ТОРГОВЛИ FX - СОЗДАНИЕ ГИБРИДНОЙ МОДЕЛИ

Антон Данилов
источник
@AntonDanilov Я не уверен, знаете ли вы об этом. Парень, который придумал эту идею (ваш первый судья, Дж. Муди), управлял фондом, используя этот алгоритм - и его выступление было далеко не впечатляющим.
horaceT
Итак, приятно знать, но как это меняет мой ответ
Антон Данилов
2

Отличие (Deep) Recurrent RL в том, что функция, отображающая наблюдения агентов на выходное действие, является Recurrent Neural Network.

Рекуррентная нейронная сеть - это тип нейронной сети, которая обрабатывает каждое наблюдение последовательно, одинаково для каждого временного шага.

Оригинальная статья: Глубокое рекуррентное Q-Learning для частично наблюдаемых MDP

LearnOPhile
источник