Я читал о ряде алгоритмов для решения проблем с n-вооруженными бандитами, таких как -greedy, softmax и UCB1, но у меня возникли некоторые проблемы при выборе лучшего подхода для минимизации сожалений.
Существует ли известный оптимальный алгоритм для решения проблемы вооруженного бандита? Есть ли выбор алгоритма, который, кажется, работает лучше всего на практике?
Ответы:
Вот две обзорные работы, которые я нашел недавно. Я еще не читал их, но тезисы звучат многообещающе.
Joann`s Vermorel и Mehryar Mohri: Алгоритмы многорукого бандита и эмпирическая оценка (2005)
Из аннотации:
Владимир Кулешов и Дойна Прекуп: алгоритмы для задачи о многоруком бандите (2000) Из аннотации:
источник