В каких реальных ситуациях мы можем использовать алгоритм многорукого бандита?

15

Многорукие бандиты хорошо работают в ситуации, когда у вас есть выбор, и вы не уверены, какой из них увеличит ваше самочувствие. Вы можете использовать алгоритм для некоторых реальных жизненных ситуаций. В качестве примера, обучение может быть хорошей областью:

Если ребенок изучает столярное дело, и он плохо в этом разбирается, алгоритм скажет ему / ей, что ему, вероятно, нужно двигаться дальше. Если он / она хорош в этом, алгоритм скажет ему / ей продолжать изучать это поле.

Знакомства также является хорошей областью:

Вы мужчина, который вкладывает много усилий в преследование леди. Тем не менее, ваши усилия определенно не приветствуются. Алгоритм должен «слегка» (или сильно) подтолкнуть вас двигаться дальше.

Для каких других реальных ситуаций мы можем использовать алгоритм многорукого бандита?

_{PS: Если вопрос слишком широкий, пожалуйста, оставьте комментарий. Если будет консенсус, я сниму свой вопрос.}

algorithms reinforcement-learning multiarmed-bandit Andy K
источник

3

Учитывая, что есть 3 ответа (пока что), я не думаю, что это слишком широкий вопрос, чтобы отвечать.

gung - Восстановить Монику

@gung У меня есть больше голосов, но они не отражаются на моем счете. Как придешь?

Энди К

5

Это потому, что эта ветка - вики сообщества (CW), @AndyK. Когда тема - CW, люди не получают репутацию из-за отрицательных голосов (или теряют ее из-за отрицательных голосов). Вы бы заработали значки, как обычно, хотя. Такие вопросы, как этот, которые запрашивают списки вещей и где нет единого, четкого «правильного» ответа, должны быть не по теме на сайтах SE. Наш компромисс (я полагаю, что другие сайты делают то же самое) состоит в том, чтобы разрешать такие вопросы в каждом конкретном случае, но делать их CW.

gung - Восстановить Монику

достаточно справедливо @ Gung

Энди К

1

поступление в колледж Подбор метрик для выбора реципиентов для донорских органов.

EngrStudent - Восстановить Монику

8

Когда вы играете в оригинальные игры про покемонов (красные, синие и желтые) и попадаете в город Селадон, у ракетных игровых автоматов Team разные шансы. Multi-Arm Bandit прямо здесь, если вы хотите оптимизировать получение этого Porygon действительно быстро.

На полном серьезе люди говорят о проблеме с выбором параметров настройки в машинном обучении. Особенно, если у вас много переменных, о разведке и эксплуатации говорят. Посмотрите, как Spearmint или даже новый документ в этой теме, который использует супер простой алгоритм для выбора параметров настройки (и способ превосходит другие методы настройки переменных)

www3
источник

6

Они могут быть использованы в биомедицинских условиях лечения / дизайна исследования. Например, я считаю, что алгоритмы q-обучения используются в последовательных, многократных назначениях, рандомизированных испытаниях ( SMART-исследования ). В принципе, идея заключается в том, что режим лечения оптимально адаптируется к прогрессу пациента. Ясно, как это может быть лучше для отдельного пациента, но оно также может быть более эффективным в рандомизированных клинических испытаниях.

gung - Восстановить Монику
источник

Спасибо @gung. Я не знал об этом алгоритме. Я прочитаю это

Энди К

6

Они используются в A / B-тестировании онлайн-рекламы, где разные объявления показываются разным пользователям и на основании результатов принимаются решения о том, какие объявления показывать в будущем. Это описано в хорошей статье исследователя Google Стивена Л. Скотта .

Тим
источник

Спасибо @Tim. Я читал, что vwo.com/blog/multi-armed-bandit-algorithm

Энди К

2

Я задал тот же вопрос на Quora

Вот ответ

Распределение финансирования для разных отделов организации

Выбор лучших спортсменов из группы студентов с ограниченным временем и произвольным порогом отбора

Максимизация доходов веб-сайта при одновременном тестировании новых функций (вместо A / B-тестирования) Вы можете использовать их в любое время, когда вам нужно оптимизировать результаты, когда у вас недостаточно данных для создания строгой статистической модели.

Andy K
источник

В каких реальных ситуациях мы можем использовать алгоритм многорукого бандита?

Ответы: