Какова политика развертывания в статье АльфаГо?

Бумага здесь .

Политика развертывания ... - это линейная политика softmax, основанная на быстрых, постепенно вычисляемых локальных функциях на основе шаблонов ...

Я не понимаю, что такое политика развертывания и как она связана с политикой сети выбора хода. Любое более простое объяснение?

machine-learning monte-carlo reinforcement-learning games Привет мир
источник

Кажется, газета стоит за

платным экраном

@xeon Я не могу с этим поделать. У меня есть полный доступ к статье, но я не могу загрузить ее здесь (законы об авторских правах). Может быть, Google вокруг, если у кого-нибудь еще есть копия?

HelloWorld

@xeon airesearch.com/wp-content/uploads/2016/01/…

dsaxton

Ответы:

Похоже, что сеть политики определяет распределение вероятностей по возможным ходам когда в игровом состоянии . Когда программа ищет игровое дерево, она делает это случайным образом, и определяет, как она выполняет этот поиск. Надежда состоит в том, что эта функция будет «вести» программу к хорошим ходам, которые, вероятно, сделает сильный игрок. Это имеет смысл, потому что при поиске в дереве игры ветви, начинающиеся с ошибок, менее значимы при оценке текущей позиции на доске против интеллектуального противника. $p(a \mid s)$ $a$ $s$ $p$

Когда они говорят, что политика развертывания (я полагаю, они заимствовали термин «развертывание» у нардов) является линейной функцией softmax, они ссылаются на обобщение сигмоидальной функции, используемой в логистической регрессии. Эта функция принимает форму

\frac{e^{β_{i}^{T} x}}{\sum_{j = 1}^{k} e^{β_{j}^{T} x}}

$\frac{e^{\beta^T_i x}}{\sum_{j=1}^{k} e^{\beta_j^T x}}$

где - это вектор, который является функцией текущей позиции платы (согласно статье линейный softmax используется только на последнем шаге сети политик), а - вектор весов, которые вместе определяют вероятность того, что политика сеть выберет действие . $x$ $\beta_i$ $a_i$

dsaxton
источник