Оптимальный алгоритм решения n-вооруженных бандитских задач?

13

Я читал о ряде алгоритмов для решения проблем с n-вооруженными бандитами, таких как -greedy, softmax и UCB1, но у меня возникли некоторые проблемы при выборе лучшего подхода для минимизации сожалений.ε

Существует ли известный оптимальный алгоритм для решения проблемы вооруженного бандита? Есть ли выбор алгоритма, который, кажется, работает лучше всего на практике?

JS01
источник
Предположительно, не существует признанного оптимального решения, так как в противном случае на странице Википедии об этом говорилось бы, и не было бы экспериментальной страницы Sourceforge
Генри
Разве это не должно быть на теоретической информатике SE?
1
@mbq, поскольку обучение с подкреплением является отраслью машинного обучения, я так не думаю;)
Штеффен
@steffen Конечно, название казалось "tcsy".
@mbq Я не понимаю. Что значит "цы"?
Штеффен

Ответы:

9

Вот две обзорные работы, которые я нашел недавно. Я еще не читал их, но тезисы звучат многообещающе.

Joann`s Vermorel и Mehryar Mohri: Алгоритмы многорукого бандита и эмпирическая оценка (2005)

Из аннотации:

Задача многорукого бандита для игрока состоит в том, чтобы решить, какую руку от игрового автомата K-слота вытащить, чтобы максимизировать его общее вознаграждение в серии испытаний. Таким образом можно смоделировать многие реальные проблемы обучения и оптимизации. Несколько стратегий или алгоритмов были предложены в качестве решения этой проблемы в последние два десятилетия, но, насколько нам известно, не было общей оценки этих алгоритмов.

Владимир Кулешов и Дойна Прекуп: алгоритмы для задачи о многоруком бандите (2000) Из аннотации:

Во-вторых, производительность большинства алгоритмов резко меняется в зависимости от параметров проблемы бандита. Наше исследование идентифицирует для каждого алгоритма настройки, где он работает хорошо, и настройки, где он работает плохо.

Штеффен
источник