У меня есть возможно наивный вопрос об AlphaZero. Я видел, что это описывается как игра в «более человечном» стиле, чем другие компьютеры, но что бы он ни делал, он зарабатывает около 100 очков ELO, делая это. Каспаров и многие другие утверждают, что сильный человек в сотрудничестве с компьютером побьет сильный компьютер (возможно, примерно на 100 ELO ??). Таким образом, очевидный вопрос заключается в том, как AlphaZero сравнивать с комбинацией «кентавр»?
Посмотрев лишь на несколько игр, я замечаю, что большинство компьютеров играют в широко открытые игры, которые максимизируют их собственную мобильность, но AlphaZero, похоже, очень обеспокоен ограничением мобильности противников. В человеке я бы назвал это стилем, а не более или менее человечным.
Ответы:
Страница 5 в документе есть ваш ответ:
«выборочно» является ключевым словом. Что это значит? Давайте использовать эту следующую позицию для нашего примера:
Это недавняя игра, выигранная Каруаной в London Chess Classic 2017 года. Белый епископ подвергся нападению, и вы знаете, что должны его переместить. А где?
Возможности (не теряя кусок):
О чем думал Каруана?
Это человеческое мышление и «человеческое движение». Каруана не рассматривал Bh4, Be3 и Bd2, потому что они «выглядели» плохо. Он был сосредоточен только и только на ходе Bc1.
Люди играют в шахматы очень избирательно , мы отбрасываем необоснованные ходы, потому что у нас нет времени, чтобы рассмотреть все возможности одинаково.
Это то, что AlphaZero пытается заявить в газете. Они утверждают, что их алгоритм, хотя и медленнее, чем Stockfish, способен выборочно выбирать лучшие ходы, чем Stockfish при поиске. Хотя Stockfish быстрее, он тратит время на плохие ходы. AlphaZero медленнее, но он более точный (например, то, что делал Каруана).
Например, AlphaZero может потратить 80% ресурсов на Bc1 и 20% на все остальные ходы слона. Вяленая рыба может давать 25% за каждый ход (Bh4, Be3, Bd2, Bc1).
источник
Большинство сильных двигателей подчеркивают, что смотрят очень глубоко, за счет наличия поверхностной функции оценки. В статье AlphaZero говорится, что Stockfish просматривает 70 миллионов позиций в секунду.
Человеческие гроссмейстеры действительно смотрят на очень немного позиций по сравнению с двигателями, но они лучше чувствуют, кто лучше в данной позиции.
AlphaZero просматривал только 80 000 позиций в секунду, поэтому он тратит гораздо больше времени на выполнение своей функции оценки.
В этом смысле они имели в виду «больше похоже на человека», не более того.
источник
AlphaZero, кажется, уже играет как обычный «кентавр» -> GM с поддержкой двигателя.
Как FM, я бы получил гораздо больше удовольствия от игры в AlphaZero против обычного движка.
Одно сравнение - это то, как Карпов играет с идеальной тактикой. (Игра 9 AlphaZero проигрывает фигуру на 15 ходов, что очень похоже на Tal).
Это не просто стиль, AlphaZero производит впечатление понимания позиций лучше, чем Stockfish.
AlphaZero также не страдает от эффекта Horizon, от которого пострадали ВСЕ шахматные движки до сих пор. Снова и снова он может правильно оценить позицию, которая больше движется вниз, чем Stockfish.
Вот пример:
AlphaZero играет короля в центр 16. Kxd2! в средней игре правильно судят, что черные не смогут этим воспользоваться.
Он может правильно оценить жертву фигуры 30. Bxg6! в то время как обычные двигатели не могут видеть, что они потеряны для ряда ходов.
Есть и другие примеры, такие как обмен Sacrifice в игре 3.
источник
Прыгнуть на повозке так же легко, заявив, что игра Альфа-Ноль «более» человечна, чем предыдущие компьютерные шахматные программы, так же как прыгнуть на противоположную повозку и сказать, что игра Альфа-Ноль полностью «чужеродна». Не ясно, что игра «Альфа-ноль» «более человечная», особенно учитывая нашу человеческую тенденцию к антропоморфизму.
Шахматы как борьба разума
Но в шахматах эта тенденция верна? Магнус Карлсен однажды говорил о том, что «традиционным» компьютерам вообще не хватает человеческого творчества, говоря:
Магнус Карлсен не видел доказательств человеческого стиля игры в традиционных шахматных компьютерах. Итак, давайте проверим, изменило ли недавнее достижение Альфа-Ноль эту перспективу и подтолкнуло нас к чему-то более напоминающему о себе.
Создатели алгоритма указывают, что в отличие от Stockfish, который использует алгоритм поиска Alpha-Beta, Alpha-Zero использует алгоритм поиска по дереву Монте-Карло (MCTS), который принимает в качестве входных данных взвешенные параметры θ, построенные из предыдущих результатов ~ Страница 3. Освоение шахмат и Сёги за счет самостоятельной игры по общему алгоритму обучения подкреплению .
Таким образом, алгоритм не демонстрирует выбор вообще. На самом деле он участвует в случайном, но вероятностном поиске Монти-Карло, где возможные пути поиска, доступные для него, все чаще предвосхищаются предыдущими результатами. Альфа-ноль решил оптимизировать свой стиль игры таким образом, или это был выбор программистов?
Первоначально он имел в своем распоряжении все ходы, поэтому его «стиль» был совершенно случайным. Однако, поскольку его поиск все чаще и оптимальнее ограничивается предыдущим успехом или неудачей, его стиль фактически меняется в сторону режима, с которым его сковали программисты. Это «более человечный»? Сравните это с Магнусом Карлесеном, который иногда будет выбирать менее оптимальные движения, потому что они более креативны :
Шахматы как борьба (чужого) разума
Люди могут выбирать критерии, определяющие их собственный стиль игры (например, я часто выбирал импульс и ошибку в своем собственном стиле). Многие видят игру Альфы-ноль в обоих шахматах и идут решительно как Чужие . Ник Хайнс, аспирант Лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL), отмечает:
Также гроссмейстер Питер Хейне Нильсен сказал Chess.com :
Кажется, что большинство реагирует на возникающий стиль игры Альфа-ноль как «игра инопланетян», а не как «более человечный».
источник
Это невероятно интересное время для жизни.
Шахматные компьютеры, начиная с 1970-х годов, использовали алгоритмы поиска на основе минимаксного дерева с использованием альфа-бета-отсечения. Эти программы становились все сильнее и сильнее как благодаря достижениям в скорости компьютера и параллелизму, так и благодаря усовершенствованиям эвристической функции eval, используемой для сокращения ветвей и выбора конечных узлов. Но люди давно заметили, насколько материалистична и скучна компьютерная игра, и многие люди (включая меня) думали, что невозможно закодировать «человеческую» интуицию в программном обеспечении.
Но вы видели эти игры?
AlphaZero демонстрирует невероятно красивую игру, в том числе несколько примеров материальной жертвы ради долгосрочного позиционного преимущества. Это напоминает некоторые из самых красивых игр от людей-мастеров, но с непревзойденной технической точностью. Это первый пример, который я видел в своей жизни за то, что генерируется компьютером, а также имеет глубокую красоту .
Претензия кентавра:
Я слышал, как Гарри говорил это много раз, но это просто неправда. Или, по крайней мере, с AlphaZero на сцене это больше не будет правдой.
Представьте себе, что есть кусок мешка, который имеет 10000 соответствующих продолжений, где 5000 из них являются чисто тактическими (но в основном не связаны друг с другом) и еще 5000, которые в основном позиционные (но в основном не связаны). Как мог человек просеять все эти варианты, не совершив ошибки? Если AlphaZero теперь может взглянуть на эти очень креативные действия, какой вклад может сделать человек?
Последняя граница:
Осталось одно место, где грубый расчет все равно побьет глубокие нейронные сети: эндшпили. Нет такой интуиции, которая побьет настольную базу. Но окончания, которые требуют табличной базы (потому что дерево поиска не может идти достаточно глубоко, чтобы просто вычислить правильный ход), довольно редки. И вы могли бы просто подключить настольную базу к AlphaZero, но это разрушило бы чистоту «самоучки», не так ли?
источник
Поскольку людям не хватает возможностей для глубокого поиска, как в традиционных компьютерных шахматных программах (fritz, stockfish и др.), Они создают «стратегические принципы» или правила большого пальца (управление центром, развитие, безопасность короля) и концепции или приемы, которые применимы в широком спектре ситуации по-разному, такие как жертвоприношение, ладьи, пара слонов, конкретные концовки, например, как загнать короля в ладью и пешку.
Я думаю, что альфа-ноль независимо друг от друга заново изобрел множество таких концепций (восприятий и концепций), а также усвоил тонны новых - потому что его знания не должны были основываться на функциях оценки человека, а сильный поиск minmax, который всегда предполагает, что противник является гений.
Конечно, в некоторых ситуациях такие принципы противоречат друг другу, поэтому тщательно изучают различные вступительные пьесы и подводные камни - например, не развивайте королеву слишком рано.
С другой стороны, люди также замечают, что когда вы теряете одну фигуру (без обмена), вы ослабляете свои силы, поэтому они крайне осторожны, чтобы не потерять фигуру без компенсации.
Я думаю, что игра Альфазеро освободила компьютерные шахматы (и человеческие шахматы) от рабского страха потерять мелкий материал и чрезмерную уверенность в открытии книг и ценностей.
Игры Alphazero показывают, что такие вещи, как «стратегические принципы», такие как управление центром, развитие, пространство, инициатива, гораздо важнее, если ваш оппонент небрежен. Другими словами, «жертва» на самом деле не жертва, а обмен части на выигрыш в инициативе, позиции, направленном движении.
Alphago (не ноль) полагался на человеческую оценку, но alphazero настраивает всю цепочку оценки на «поиск или симуляцию» как единый сквозной процесс и предлагает совершенно новый способ игры.
Если вы подумаете об этом, великих мастеров прошлого, таких как Морфи, Фишер, Каспаров, хвалят, как правило, за такую интуитивную игру, где они не ограничены письменной оценкой, используя специальные ситуации, которые всплывать. Я думаю, что игры альфа-ноль имеют такой «вау» фактор.
Почему нейронные сети. В то время как компьютерные программы, которые используют символическое представление и дискретный поиск, могут использовать только «один» способ мышления, нейронные сети могут параллельно обрабатывать ситуации с альтернативными, противоречивыми оценками и переходить к более ценному представлению на более поздних уровнях.
источник
Более человечен в том смысле, что ходы, которые он выполняет, похоже, в большей или меньшей степени совпадают с подходом человека: игра ради долгосрочного преимущества, позиционные жертвы, фигурная активность. Существует очевидное сближение с человеческими шахматными знаниями и общепринятыми стратегическими принципами, усовершенствованными на протяжении веков (например, он «открыл» много одинаковых открытий). Это замечательно, учитывая тот факт, что AlphaZero не был засеян искусственными шахматными знаниями.
Но сходство заканчивается здесь. AlphaZero выводит его на следующий уровень и делает это лучше, и так, как люди никогда не задумывали. AlphaZero обладает «сверхчеловеческими» способностями процитировать статью: «AlphaZero достигла сверхчеловеческого уровня игры [...]» ( https://arxiv.org/pdf/1712.01815.pdf ). Кроме того, у него нет слабостей, присущих людям: проблемы концентрации, страха, усталости, чувств, интуиции и т. Д., Которые ограничивают людей. А его кремниевый мозг допускает тактические комбинации за пределами человеческих возможностей, когда это необходимо.
источник
Я хочу сказать спасибо всем, кто ответил на этот вопрос, часто с тонкостью и проницательностью. Мне кажется, главное отличие в ответах заключается в толковании слова «человек».
AlphaZero не играет в человеческие шахматы в смысле упущений и просчетов, но его «мыслительный» процесс в усиленной форме соответствует тому, как я думаю, что думают большинство сильных игроков. Вы довольно быстро составляете список «ходов-кандидатов», которые вы хотели бы сыграть, и для сильнейших игроков этот список удивительно точен, даже играя в нечто вроде узнаваемой игры за одну минуту. Остальное время тратится на вопрос, какие из ходов в этом списке действительно работают? Петросян сказал, что он больше всего чувствовал себя в форме, когда ход, который он в конце концов сыграл, был тем, о котором он впервые подумал. Мы все знаем, как приятно, когда ход, который мы больше всего хотели сыграть, оказывается тактически выполнимым. Я могу относиться к алгоритму AlphaZero гораздо проще, чем к поиску AlphaBeta,
То, что кажется наиболее интересным, - это то, как машина смогла по собственной инициативе распознать перспективных кандидатов. В этом и заключается потенциал настоящей революции. Интересно, возможно ли это только для таких областей, как шахматы и го, где цели могут быть четко определены. Но я нахожу поразительным, что AlphaZero, кажется, демонстрирует целенаправленную игру, но Stockfish понятия не имеет, что происходит.
источник
Насколько я понимаю, нейронные сети, реальное преимущество A0 - превосходная оценка позиций на доске. Эта оценка включает в себя как краткосрочное тактическое знание (которое в некотором смысле служит множителем числа исследованных позиций), так и превосходную оценку стратегической ценности.
источник
Я чувствую, что вся дискуссия упущена из-за того, что А0 может играть в шахматы, сёги и идти, все очень хорошо и все благодаря самообучению. Это гораздо более человечно. Кроме того, в ходу он открыл глубоко новые идеи для лучших игроков (насколько я понимаю). Другие двигатели очень специфичны для задач, A0 выглядит иначе. Я хотел бы видеть это играть в шахматы960.
источник
Я не думаю, что в Альфе есть что-то «человеческое». Он просто использовал более сильную технику и играл в более качественные шахматы. Хорошие ходы открытия, которые он находит (например, на стороне короля фианкетто с Bg2), полностью обусловлены его имитированной книгой открытия. Понятия, которые меня впечатлили и которые я сформулировал в «Секрете шахмат»: http://davidsmerdon.com/?p=1970 , который Альфа впервые использует среди топовых движков, - это продвинутые более длинные цепочки, например d4 -e5-f6 цепочка, которая превзошла целую фигуру в игре жертвоприношений Bg6, и центральные отсталые, как видно из игр французской обороны между обоими двигателями. Обе концепции предполагают поиск на больших глубинах, и, вероятно, здесь Alpha помогла его огромная аппаратная часть. Иначе я не вижу ничего человеческого в его игре. Многие из игр были, по общему признанию,
источник