Вопросы с тегом «multiarmed-bandit»

27

Самым известным бандитским алгоритмом является верхний предел доверия (UCB), который популяризировал этот класс алгоритмов. С тех пор я предполагаю, что теперь есть лучшие алгоритмы. Каков текущий лучший алгоритм (с точки зрения либо эмпирической производительности, либо теоретических границ)?...

15

В каких реальных ситуациях мы можем использовать алгоритм многорукого бандита?

Многорукие бандиты хорошо работают в ситуации, когда у вас есть выбор, и вы не уверены, какой из них увеличит ваше самочувствие. Вы можете использовать алгоритм для некоторых реальных жизненных ситуаций. В качестве примера, обучение может быть хорошей областью: Если ребенок изучает столярное дело,...

algorithms reinforcement-learning multiarmed-bandit

14

Функции стоимости для контекстных бандитов

Я использую vowpal wabbit для решения проблемы контекстуального бандита . Я показываю рекламу пользователям, и у меня есть достаточно информации о контексте, в котором показывается реклама (например, кто такой пользователь, на каком сайте он находится и т. Д.). Похоже, это довольно классическая...

multinomial gradient-descent multiarmed-bandit vowpal-wabbit contextual-bandit

14

Что такое Тэмпсон Сэмплинг с точки зрения непрофессионала?

Я не могу понять Тэмпсон Сэмплинг и как это работает. Я читал о Multi Arm Bandit и после прочтения Upper Confidence Bound Algorithm многие тексты предположили, что сэмплинг Thompson работает лучше, чем UCB. Что такое Тэмпсон Сэмплинг, с точки зрения непрофессионала или просто? Не стесняйтесь...

machine-learning definition multiarmed-bandit

13

Оптимальный алгоритм решения n-вооруженных бандитских задач?

Я читал о ряде алгоритмов для решения проблем с n-вооруженными бандитами, таких как -greedy, softmax и UCB1, но у меня возникли некоторые проблемы при выборе лучшего подхода для минимизации сожалений.εε\epsilon Существует ли известный оптимальный алгоритм для решения проблемы вооруженного бандита?...

machine-learning reinforcement-learning multiarmed-bandit

11

Многорукий бандит для общего распределения наград

Я работаю над проблемой многорукого бандита, где у нас нет никакой информации о распределении наград. Я нашел много работ, которые гарантируют оценки сожаления для распределения с известной оценкой и для общих распределений с поддержкой в [0,1]. Я хотел бы выяснить, есть ли способ добиться...

references multiarmed-bandit