Проблема Уоррена Баффета

Вот абстракция проблемы онлайн обучения / бандита, над которой я работал летом. Я не видел подобной проблемы раньше, и это выглядит довольно интересно. Если вы знаете о любой связанной работе, я был бы признателен за ссылки.

Проблема Параметр для многоруких бандитов. У тебя есть N рук. У каждой руки есть неизвестное, но фиксированное распределение вероятностей по наградам, которые можно заработать, сыграв на ней. Для конкретности предположим, что каждая рука i выплачивает вознаграждение в 10 долларов с вероятностью p [i] и вознаграждение в 0 долларов с вероятностью. 1-р .

В каждом раунде t вы выбираете набор S [t] оружия для игры. За каждую выбранную руку вы платите 1 доллар . За каждую выбранную руку вы получаете вознаграждение, полученное из (неизвестного) распределения вероятности вознаграждения этой руки. Все вознаграждения зачисляются на ваш банковский счет, и все комиссии удерживаются с этого счета. Кроме того, вы получаете кредит в размере 1 $ в начале каждой итерации.

Проблема состоит в том, чтобы разработать политику выбора подмножества оружия для игры на каждой итерации, чтобы максимизировать прибыль (то есть вознаграждение за вычетом сборов за игру) в течение достаточно длительного горизонта, при условии, что он должен поддерживать неотрицательный баланс счета на уровне все время.

Я не уточнил, будут ли распределения вознаграждений за руку выбраны из предыдущего распределения или выбраны противником. Оба варианта имеют смысл. Формулировка противника более привлекательна для меня, но, вероятно, труднее добиться прогресса. Здесь противник выбирает вектор (D1, D2, .., DN) распределений. Учитывая распределение, оптимальная сбалансированная бюджетная политика заключается в том, чтобы разыгрывать все руки, ожидаемое вознаграждение которых превышает 1 доллар. Пусть P - прибыль за шаг этой оптимальной всезнающей политики. Я хочу, чтобы моя политика в Интернете сводила к минимуму сожаление (т. Е. Упущенную выгоду за промежуток времени T) в отношении этой всезнающей политики.

machine-learning lg.learning online-learning Мартин Пал
источник

Вы уверены, что лучшая политика - разыгрывать все руки, ожидаемая награда которых больше $ 1 в каждом раунде? Если у вас есть строгое ограничение, что вы должны постоянно поддерживать неотрицательный баланс на счете, могут быть раунды, в которых вам даже не разрешено играть.

Матиас

Таким образом, вы не знаете вероятности получения вознаграждения, но вы можете определить отдачу от каждой отдельной руки?

Дэвид Торнли

Вы не знаете вероятностей и не знаете ожидаемых наград. Однако всезнающая «оптимальная» политика, с которой я хочу сравнить себя, может сыграть все руки с наградой больше 1, потому что она всезнающая.

Мартин Пал

Я сделаю дикое предположение, что после

раундов вы можете получить ожидаемый доход с точностью до постоянного множителя, после чего проблема, похоже, потеряла большую часть своего необычного характера. Нижняя граница

следует из случая, когда только одна рука имеет ненулевой выигрыш. Я не вижу верхней границы сразу.

Θ (N)

$\Theta(N)$

Ω (N)

$\Omega(N)$

Уоррен Шуди

Исправление: после

раундов вы, вероятно, не можете гарантировать постоянный фактор оптимального дохода. Однако вы, вероятно, можете получить эту гарантию относительно дохода, получаемого от оружия, которое, как ожидается, вернется, по крайней мере, скажем, 2 доллара.

Θ (N)

$\Theta(N)$

Уоррен Шуди

Я предполагаю, что есть много возможных подходов к этой проблеме (многие из которых я уверен, что вы рассмотрели) - вот несколько идей / ссылок.

$N$
$O(2^{N/2} T^{1/2})$
В готовящейся публикации NIPS 2010 года Сатен Кейл, Роб Шапире и я рассмотрим случай, когда каждый раз играет на грифу. В нашей работе, однако, размер листа остается неизменным. В этой статье также рассматривается аналогичная проблема. Еще одна похожая работа появилась в ALT 2010. Возможно, некоторые идеи переносятся.
$2^N$ $O(N\sqrt{T})$ $O(2^N T)$

РЕДАКТИРОВАТЬ ниже:

$0$ $1$ $(n-1)/n$ $T$ $T$ $(n-1)T/n$

$B$ $0$ $2B$ $1/B$

Лев Рейзин
источник

Привет Лев, спасибо за указатели. Я согласен, что если бы у меня был неограниченный начальный бюджет, игра в N параллельных одноруких бандитов решила бы проблему. Бюджетное ограничение, однако, вводит связь между вооружениями и делает вещи интересными. В частности, на первом этапе у вас есть только бюджет, чтобы разыграть одну руку. На втором этапе вы можете сыграть либо 11 рук, либо только 1 руку, в зависимости от того, повезло ли вам на первом этапе и так далее. Поэтому важно найти кучу прибыльного оружия на раннем этапе, чтобы затем использовать его для дальнейшего исследования.

Мартин Пал

Я не осознавал, что был начальный бюджет (теперь я понимаю часть «неотрицательного баланса», но, возможно, вы можете прояснить вопрос?) - это делает проблему более интересной. Также может быть интересно рассмотреть «контекстную» или экспертную версию. К сожалению, я не знаю более подходящих ссылок для этой проблемы.

Лев Рейзин

Если я правильно сформулировал задачу, вы получаете дополнительный 1 доллар за раунд. Мартин, не могли бы вы уточнить вопрос?

Юкка Суомела

Я думаю, что вы получаете все, что платит машина, если играете в нее, выигрываете и теряете 1 доллар, когда решаете играть.

Лев Рейзин

Проблема Уоррена Баффета

Ответы: