Бумага здесь .
Политика развертывания ... - это линейная политика softmax, основанная на быстрых, постепенно вычисляемых локальных функциях на основе шаблонов ...
Я не понимаю, что такое политика развертывания и как она связана с политикой сети выбора хода. Любое более простое объяснение?
Ответы:
Похоже, что сеть политики определяет распределение вероятностей по возможным ходам когда в игровом состоянии . Когда программа ищет игровое дерево, она делает это случайным образом, и определяет, как она выполняет этот поиск. Надежда состоит в том, что эта функция будет «вести» программу к хорошим ходам, которые, вероятно, сделает сильный игрок. Это имеет смысл, потому что при поиске в дереве игры ветви, начинающиеся с ошибок, менее значимы при оценке текущей позиции на доске против интеллектуального противника.p(a∣s) a s p
Когда они говорят, что политика развертывания (я полагаю, они заимствовали термин «развертывание» у нардов) является линейной функцией softmax, они ссылаются на обобщение сигмоидальной функции, используемой в логистической регрессии. Эта функция принимает форму
где - это вектор, который является функцией текущей позиции платы (согласно статье линейный softmax используется только на последнем шаге сети политик), а - вектор весов, которые вместе определяют вероятность того, что политика сеть выберет действие .x βi ai
источник