Функция оценки шахматного движка, созданная в виде нейронной сети или явного кода, всегда способна присвоить значение любой позиции на доске. Если вы дадите ему позицию на доске, даже абсурдную, которая никогда не встречается в игре, она сможет выпустить число, показывающее, насколько это выгодно тому или иному игроку. Поскольку количество позиций на доске в шахматах неуправляемо гигантское, обучение может происходить только на бесконечно малом образце дерева игры. Двигатель не просто вызывает ранее рассчитанные значения позиций на плате, но выполняет вычисления на основе расположения частей. Для примера, отличного от нейронной сети, частью оценки шахматного движка может быть сложение стоимости каждой фигуры на ее стороне и вычитание общей стоимости фигур противника. Затем,
Когда двигатель не обучен, значения, назначенные позиции, также могут быть случайными, поскольку параметры функции оценки начинаются с (обычно) случайных значений. Цель этапа обучения - настроить параметры двигателя так, чтобы он назначал высокие оценки позициям на доске, которые являются вероятными состояниями выигрыша для игрока.
Из статьи об AlphaZero (стр. 3):
Параметры глубокой нейронной сети в AlphaZero обучаются обучению подкрепления для самостоятельной игры, начиная со случайно инициализированных параметров. В игры играют, выбирая ходы для обоих игроков MCTS. В конце игры конечная позиция оценивается в соответствии с правилами игры для расчета результата игры: -1 для проигрыша, 0 для ничьи и +1 для победы. Параметры нейронной сети обновляются таким образом, чтобы минимизировать ошибку между прогнозируемым результатом и результатом игры, а также максимизировать сходство вектора политики с вероятностями поиска.
[математические символы удалены из цитаты]
Таким образом, во время обучения AlphaZero сыграла игру против себя. Когда игра окончена, результат игры и точность ее предсказаний о том, как будет проходить игра, использовались для настройки нейронной сети, чтобы она была более точной во время следующей игры. AlphaZero не ведет учет каждой позиции, которую он видел, но настраивается так, чтобы он мог более точно оценить любую доску, которую он увидит в будущем.