UCB действительно близок к оптимальному в стохастическом случае (с точностью до логарифмического T-коэффициента для игры T-раунда) и до разрыва в неравенстве Пинскера в более проблемно-зависимом смысле. Недавняя работа Audibert и Bubeck удаляет эту зависимость от журнала в худшем случае, но имеет худшую оценку в благоприятном случае, когда разные руки имеют хорошо разделенные награды.
В общем, UCB является одним из кандидатов от большего семейства алгоритмов. В любой момент игры вы можете посмотреть на все руки, которые не «дисквалифицированы», то есть верхняя граница уверенности не меньше, чем нижняя граница уверенности какой-либо руки. Сбор, основанный на любом распределении такого квалифицированного оружия, представляет собой правильную стратегию и вызывает аналогичное сожаление до констант.
Эмпирически, я не думаю, что была проведена значительная оценка многих различных стратегий, но я думаю, что UCB часто довольно хорош.
Большая часть последних исследований была сосредоточена на распространении проблем бандитов за пределы простого K-вооруженного окружения со стохастическим вознаграждением, на очень большие (или бесконечные) пространства действий, с дополнительной информацией или без нее, а также при стохастической или состязательной обратной связи. Также была работа в сценариях, где критерии производительности отличаются (например, определение только лучшей руки).