Мне интересно, как подготовить нейронную сеть для настольной игры, основанной на раундах, такой как крестики-нолики, шахматы, риск или любая другая игра на основе раундов. Получить следующий ход по логическому выводу, кажется, довольно просто, путем подачи состояния игры в качестве входных данных и использования выходных данных в качестве хода для текущего игрока. Однако подготовка ИИ для этой цели не кажется такой уж простой, потому что:
- Там может не быть рейтинга, если один ход хорош или нет, поэтому обучение отдельных ходов не кажется правильным выбором
- Использование всех игровых состояний (входов) и ходов (выходов) всей игры для обучения нейронной сети не представляется правильным выбором, поскольку не все ходы в проигранной игре могут быть плохими
Итак, мне интересно, как подготовить нейронную сеть для настольной игры на основе раунда? Я хотел бы создать нейронную сеть для крестики-нолики с использованием тензорного потока.
источник
Я думаю, вы должны ознакомиться с обучением подкреплению. В этой области машинного обучения агент взаимодействует со своей средой, и после этого агент получает некоторое вознаграждение. Теперь агент - это нейронная сеть, а среда - игра, и агент может получить награду +1, если он выиграет, или -1, если проиграет. Вы можете использовать это состояние, действие, кортеж опыта, чтобы обучить агента. Я могу порекомендовать лекции Дэвида Сильвера на YouTube и книгу Саттона.
источник