Насколько я понимаю, алгоритм поиска дерева Монте-Карло (MCTS) является альтернативой минимаксному поиску дерева узлов. Он работает, выбирая ход (как правило, тот, у которого больше шансов быть лучшим), а затем выполняя случайную игру на ходу, чтобы посмотреть, каков будет результат. Этот процесс продолжается в течение выделенного времени.
Это не похоже на машинное обучение, а скорее на путь обхода дерева. Однако я слышал, что AlphaZero использует MCTS, поэтому я в замешательстве. Если AlphaZero использует MCTS, то почему AlphaZero учится? Или AlphaZero провела какое-то машинное обучение, прежде чем сыграла какие-либо матчи, а затем использовала интуицию, полученную от машинного обучения, чтобы узнать, какие движения проводить больше времени, играя с MCTS?
источник