Какова политика развертывания в статье АльфаГо?

11

Бумага здесь .

Политика развертывания ... - это линейная политика softmax, основанная на быстрых, постепенно вычисляемых локальных функциях на основе шаблонов ...

Я не понимаю, что такое политика развертывания и как она связана с политикой сети выбора хода. Любое более простое объяснение?

Привет мир
источник
Кажется, газета стоит за
платным экраном
@xeon Я не могу с этим поделать. У меня есть полный доступ к статье, но я не могу загрузить ее здесь (законы об авторских правах). Может быть, Google вокруг, если у кого-нибудь еще есть копия?
HelloWorld

Ответы:

11

Похоже, что сеть политики определяет распределение вероятностей по возможным ходам когда в игровом состоянии . Когда программа ищет игровое дерево, она делает это случайным образом, и определяет, как она выполняет этот поиск. Надежда состоит в том, что эта функция будет «вести» программу к хорошим ходам, которые, вероятно, сделает сильный игрок. Это имеет смысл, потому что при поиске в дереве игры ветви, начинающиеся с ошибок, менее значимы при оценке текущей позиции на доске против интеллектуального противника.p(as)asp

Когда они говорят, что политика развертывания (я полагаю, они заимствовали термин «развертывание» у нардов) является линейной функцией softmax, они ссылаются на обобщение сигмоидальной функции, используемой в логистической регрессии. Эта функция принимает форму

eβiTxj=1keβjTx

где - это вектор, который является функцией текущей позиции платы (согласно статье линейный softmax используется только на последнем шаге сети политик), а - вектор весов, которые вместе определяют вероятность того, что политика сеть выберет действие .xβiai

dsaxton
источник