Я работаю над проблемой многорукого бандита, где у нас нет никакой информации о распределении наград.
Я нашел много работ, которые гарантируют оценки сожаления для распределения с известной оценкой и для общих распределений с поддержкой в [0,1].
Я хотел бы выяснить, есть ли способ добиться хороших результатов в среде, где распределение вознаграждений не дает никаких гарантий относительно его поддержки. Я пытаюсь вычислить непараметрический предел допуска и использую это число для масштабирования распределения вознаграждений, чтобы я мог использовать алгоритм 2, указанный в этом документе ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ). Кто-нибудь думает, что этот подход будет работать?
Если нет, может кто-нибудь указать мне на правильное место?
Огромное спасибо!