Многорукие бандиты хорошо работают в ситуации, когда у вас есть выбор, и вы не уверены, какой из них увеличит ваше самочувствие. Вы можете использовать алгоритм для некоторых реальных жизненных ситуаций. В качестве примера, обучение может быть хорошей областью:
Если ребенок изучает столярное дело, и он плохо в этом разбирается, алгоритм скажет ему / ей, что ему, вероятно, нужно двигаться дальше. Если он / она хорош в этом, алгоритм скажет ему / ей продолжать изучать это поле.
Знакомства также является хорошей областью:
Вы мужчина, который вкладывает много усилий в преследование леди. Тем не менее, ваши усилия определенно не приветствуются. Алгоритм должен «слегка» (или сильно) подтолкнуть вас двигаться дальше.
Для каких других реальных ситуаций мы можем использовать алгоритм многорукого бандита?
PS: Если вопрос слишком широкий, пожалуйста, оставьте комментарий. Если будет консенсус, я сниму свой вопрос.
Ответы:
Когда вы играете в оригинальные игры про покемонов (красные, синие и желтые) и попадаете в город Селадон, у ракетных игровых автоматов Team разные шансы. Multi-Arm Bandit прямо здесь, если вы хотите оптимизировать получение этого Porygon действительно быстро.
На полном серьезе люди говорят о проблеме с выбором параметров настройки в машинном обучении. Особенно, если у вас много переменных, о разведке и эксплуатации говорят. Посмотрите, как Spearmint или даже новый документ в этой теме, который использует супер простой алгоритм для выбора параметров настройки (и способ превосходит другие методы настройки переменных)
источник
Они могут быть использованы в биомедицинских условиях лечения / дизайна исследования. Например, я считаю, что алгоритмы q-обучения используются в последовательных, многократных назначениях, рандомизированных испытаниях ( SMART-исследования ). В принципе, идея заключается в том, что режим лечения оптимально адаптируется к прогрессу пациента. Ясно, как это может быть лучше для отдельного пациента, но оно также может быть более эффективным в рандомизированных клинических испытаниях.
источник
Они используются в A / B-тестировании онлайн-рекламы, где разные объявления показываются разным пользователям и на основании результатов принимаются решения о том, какие объявления показывать в будущем. Это описано в хорошей статье исследователя Google Стивена Л. Скотта .
источник
Я задал тот же вопрос на Quora
Вот ответ
источник