Как Alpha Zero «более человечный»?

35

У меня есть возможно наивный вопрос об AlphaZero. Я видел, что это описывается как игра в «более человечном» стиле, чем другие компьютеры, но что бы он ни делал, он зарабатывает около 100 очков ELO, делая это. Каспаров и многие другие утверждают, что сильный человек в сотрудничестве с компьютером побьет сильный компьютер (возможно, примерно на 100 ELO ??). Таким образом, очевидный вопрос заключается в том, как AlphaZero сравнивать с комбинацией «кентавр»?

Посмотрев лишь на несколько игр, я замечаю, что большинство компьютеров играют в широко открытые игры, которые максимизируют их собственную мобильность, но AlphaZero, похоже, очень обеспокоен ограничением мобильности противников. В человеке я бы назвал это стилем, а не более или менее человечным.

Филип Роу
источник
4
Что касается того, что иск от Каспарова очень устарел. Человек и компьютер в сотрудничестве («продвинутые шахматы» или «шахматы кентавров») больше не могут превзойти компьютер самостоятельно - компьютеры слишком хороши - Stockfish 8 оценивается где-то в районе ~ 3400 IIRC, по сравнению с ~ 2825 для Магнуса Карлсена ,
Стивен Таусет
8
@StephenTouset Только предостережение, чтобы быть осторожным с оценками Эло для двигателей. Те, которые я чаще всего видел, взяты из сравнения двигателей с двигателями, которые не были стандартизированы для реального человека. Соответствующая цитата из Википедии : «Эти рейтинги не [...] не имеют прямого отношения к рейтингам ФИДЕ Эло или другим шахматным федерациям, а также к рейтингам игроков-людей. За исключением некоторых игр« человек против машин », организованных SSDF много лет назад (которые были далеко от сегодняшнего уровня) нет калибровки между любым из этих рейтинговых списков и пулами игроков. "
mbrig
1
Я думаю, что люди могли, но не в стандартном контроле времени. Долгая переписка игр должна быть в порядке.
SmallChess
4
тьфу, AlphaZero это продукт Google. Поэтому неудивительно, что вы услышите больше пропаганды об этом, чем продукты других компаний. Я думаю, у них есть лучшие предложения с авторами и издателями. Возьми это с кучей соли, как и все, что касается Вэймо.
coderworks

Ответы:

33

Страница 5 в документе есть ваш ответ:

... AlphaZero компенсирует меньшее количество оценок, используя свою глубокую нейронную сеть, что позволяет гораздо более избирательно оценивать наиболее перспективные варианты - возможно, более "человеческий" подход к шахматам ...

«выборочно» является ключевым словом. Что это значит? Давайте использовать эту следующую позицию для нашего примера:

https://chess24.com/en/read/news/london-classic-5-caruana-shows-how-it-s-done

Ходы

Это недавняя игра, выигранная Каруаной в London Chess Classic 2017 года. Белый епископ подвергся нападению, и вы знаете, что должны его переместить. А где?

Возможности (не теряя кусок):

  • Bh4
  • Be3
  • bd2
  • Bc1

О чем думал Каруана?

Я чувствовал, что в какой-то момент я проиграю, но когда увидел 25.Bc1, я внезапно стал немного оптимистичнее относиться к своим шансам. Я понял, что моя позиция плохая, но, по крайней мере, у меня был план, и это было действительно все, что мне нужно для уверенности в этой позиции. Когда я увидел это b3, c4, позиция обоюдоострая, и у меня есть некоторые шансы.

Это человеческое мышление и «человеческое движение». Каруана не рассматривал Bh4, Be3 и Bd2, потому что они «выглядели» плохо. Он был сосредоточен только и только на ходе Bc1.

Люди играют в шахматы очень избирательно , мы отбрасываем необоснованные ходы, потому что у нас нет времени, чтобы рассмотреть все возможности одинаково.

  • Мы сбрасываем Bh4, потому что он снимает напряжение с пешки h6
  • Мы сбрасываем Be3, потому что он блокирует двух белых грачей третьего ранга
  • Мы сбрасываем Bd2, потому что он блокирует белую королеву на стороне короля

Это то, что AlphaZero пытается заявить в газете. Они утверждают, что их алгоритм, хотя и медленнее, чем Stockfish, способен выборочно выбирать лучшие ходы, чем Stockfish при поиске. Хотя Stockfish быстрее, он тратит время на плохие ходы. AlphaZero медленнее, но он более точный (например, то, что делал Каруана).

Например, AlphaZero может потратить 80% ресурсов на Bc1 и 20% на все остальные ходы слона. Вяленая рыба может давать 25% за каждый ход (Bh4, Be3, Bd2, Bc1).

SmallChess
источник
1
Так что, по сути, стиль игры не обязательно более человечный, но подход к определению следующего хода игры. По крайней мере, согласно статье. Кроме того, я не могу отредактировать его, но ваша цитата из Каруаны имеет довольно большую опечатку: «Когда я увидел его b3, c4» должно быть «Когда я увидел этот b3, c4»
Артур
@ Артур Согласно бумаге (и только бумаге), стиль игры не обязательно более человечный. Я не говорю НЕТ, но ничто в газете не говорит этого.
SmallChess
Алгоритмы Монте-Карло имеют параметр для контроля эксплойта x, поэтому ходы, которые альфа-бета никогда не будет учитывать (из-за времени), делают альфа-ноль.
Фернандо
@Fernando Можете ли вы объяснить, что вы отвечаете? Я изо всех сил пытаюсь понять суть. Также меня смущает «никогда не считай из-за времени». Альфа-бета-поиск игнорирует ветви, которые явно хуже, чем некоторые другие уже изученные ветви. Я не понимаю, как это связано со временем.
И.А. Петр
В основном, если линия равна +0.32, а другая - +0.13, AlphaZero будет тратить время на первую.
Джосси Кальдерон
16

Большинство сильных двигателей подчеркивают, что смотрят очень глубоко, за счет наличия поверхностной функции оценки. В статье AlphaZero говорится, что Stockfish просматривает 70 миллионов позиций в секунду.

Человеческие гроссмейстеры действительно смотрят на очень немного позиций по сравнению с двигателями, но они лучше чувствуют, кто лучше в данной позиции.

AlphaZero просматривал только 80 000 позиций в секунду, поэтому он тратит гораздо больше времени на выполнение своей функции оценки.

В этом смысле они имели в виду «больше похоже на человека», не более того.

RemcoGerlich
источник
11

AlphaZero, кажется, уже играет как обычный «кентавр» -> GM с поддержкой двигателя.

Как FM, я бы получил гораздо больше удовольствия от игры в AlphaZero против обычного движка.

Одно сравнение - это то, как Карпов играет с идеальной тактикой. (Игра 9 AlphaZero проигрывает фигуру на 15 ходов, что очень похоже на Tal).

Это не просто стиль, AlphaZero производит впечатление понимания позиций лучше, чем Stockfish.

AlphaZero также не страдает от эффекта Horizon, от которого пострадали ВСЕ шахматные движки до сих пор. Снова и снова он может правильно оценить позицию, которая больше движется вниз, чем Stockfish.

Вот пример:

AlphaZero - вяленая рыба, Alphazero vs Stockfish: AlphaZero - вяленая рыба, 2017-12-05, 1-0
1. d4 е6 2. е4 d5 3. Nc3 Nf6 4. е5 Nfd7 5. f4 с5 6. Nf3 cxd4 7. Nb5 Bb4 + 8. bd2 BC5 9. b4 Ве7 10. Nbxd4 Nc6 11. c3 а5 12. b5 Nxd4 13. cxd4 Nb6 14. а4 Nc4 15. Bd3 Nxd2 16. Kxd2 Bd7 17. Ke3 b6 18. g4 h5 19. QG1 hxg4 20. Qxg4 Bf8 21. h4 Qe7 22. Rhc1 g6 23. Rc2 Kd8 24. Rac1 Qe8 25. Rc7 Rc8 26. RXC8 + Bxc8 27. Rc6 Bb7 28. Rc2 Kd7 29. Ng5 Ве7 30. Bxg6 Bxg5 31. Qxg5 fxg6 32. f5 Rg8 33. Qh6 Qf7 34. f6 Kd8 35. KD2 Kd7 36. Rc1 Kd8 37. Qe3 Qf8 38. QC3 Qb4 39. Qxb4 axb4 40. Rg1 b3 41. KC3 Bc8 42. Kxb3 Bd7 43. Kb4 Ве8 44. Ra1 Kc7 45. a5 BD7 46. axb6 + Kxb6 47. RA6 + Kb7 48. Kc5 Rd8 49. Ra2 Rc8 + 50. Kd6 Be8 51. Ke7 g5 52. hxg5 1-0

AlphaZero играет короля в центр 16. Kxd2! в средней игре правильно судят, что черные не смогут этим воспользоваться.

Он может правильно оценить жертву фигуры 30. Bxg6! в то время как обычные двигатели не могут видеть, что они потеряны для ряда ходов.

  1. F5 тоже неплохо.

Есть и другие примеры, такие как обмен Sacrifice в игре 3.

Sint
источник
8

Прыгнуть на повозке так же легко, заявив, что игра Альфа-Ноль «более» человечна, чем предыдущие компьютерные шахматные программы, так же как прыгнуть на противоположную повозку и сказать, что игра Альфа-Ноль полностью «чужеродна». Не ясно, что игра «Альфа-ноль» «более человечная», особенно учитывая нашу человеческую тенденцию к антропоморфизму.

Шахматы как борьба разума

Но в шахматах эта тенденция верна? Магнус Карлсен однажды говорил о том, что «традиционным» компьютерам вообще не хватает человеческого творчества, говоря:

«Шахматы - это борьба человеческих умов. Это то, что делает их захватывающими. Компьютерные шахматы механические, сухие и мягкие. Конечно, ходы очень сильные, но стиля нет. Если вы пытаетесь играть против шахматного компьютера Вы не только проиграете с очень высокой уверенностью, но вам также будет скучно в процессе.

Магнус Карлсен не видел доказательств человеческого стиля игры в традиционных шахматных компьютерах. Итак, давайте проверим, изменило ли недавнее достижение Альфа-Ноль эту перспективу и подтолкнуло нас к чему-то более напоминающему о себе.

Если под «человеческим» вы подразумеваете игру, демонстрирующую поведение, более склонное апеллировать к нашему чувству антропоморфизма, стиль Альфа-нуля кажется более человечным? Как мы на самом деле проверяем, как эти субъективные близорукие люди любят проецировать на нечеловеческие вещи? Давайте спросим - алгоритм «выборочно выбирает лучше» или «более творческий выбор человека» в своем стиле игры?

Создатели алгоритма указывают, что в отличие от Stockfish, который использует алгоритм поиска Alpha-Beta, Alpha-Zero использует алгоритм поиска по дереву Монте-Карло (MCTS), который принимает в качестве входных данных взвешенные параметры θ, построенные из предыдущих результатов ~ Страница 3. Освоение шахмат и Сёги за счет самостоятельной игры по общему алгоритму обучения подкреплению .

Таким образом, алгоритм не демонстрирует выбор вообще. На самом деле он участвует в случайном, но вероятностном поиске Монти-Карло, где возможные пути поиска, доступные для него, все чаще предвосхищаются предыдущими результатами. Альфа-ноль решил оптимизировать свой стиль игры таким образом, или это был выбор программистов?

Всегда ли у альфа-нуля есть все возможные ходы, доступные ему для рассмотрения, или некоторые ходы предвзяты алгоритмически таким образом, который имитирует опыт, который может быть истолкован людьми антропоморфно?

Первоначально он имел в своем распоряжении все ходы, поэтому его «стиль» был совершенно случайным. Однако, поскольку его поиск все чаще и оптимальнее ограничивается предыдущим успехом или неудачей, его стиль фактически меняется в сторону режима, с которым его сковали программисты. Это «более человечный»? Сравните это с Магнусом Карлесеном, который иногда будет выбирать менее оптимальные движения, потому что они более креативны :

Магнус Карлсен: «Я ценю создание чего-то уникального»

Шахматы как борьба (чужого) разума

Люди могут выбирать критерии, определяющие их собственный стиль игры (например, я часто выбирал импульс и ошибку в своем собственном стиле). Многие видят игру Альфы-ноль в обоих шахматах и идут решительно как Чужие . Ник Хайнс, аспирант Лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL), отмечает:

«То, что мы видим здесь, - это модель, свободная от предвзятости и предубеждений человека: она может выучить то, что определяет оптимально, что действительно может быть более нюансированным, чем наши собственные представления об этом. Это как инопланетная цивилизация, изобретающая свою собственную математику, которая позволяет ей делать такие вещи, как путешествие во времени ... »

Также гроссмейстер Питер Хейне Нильсен сказал Chess.com :

«Прочитав газету, но, особенно, увидев игры, я подумал: ну, я всегда задавался вопросом, как было бы, если бы высший вид приземлился на земле и показал нам, как они играют в шахматы.

Кажется, что большинство реагирует на возникающий стиль игры Альфа-ноль как «игра инопланетян», а не как «более человечный».

Поэтому есть причина не соглашаться с ответами выше, которые говорят «да».

user34445
источник
3
Ваш ответ довольно вводит в заблуждение и неточен в некоторых местах. Использование MCTS не является принципиальным отличием, поэтому оно не побеждает Stockfish. Они также могли использовать поиск по альфа-бета-версии, они просто чувствовали, что MCTS работает лучше для них. Основными элементами алгоритма AlphaZero являются очень глубокая сверточная нейронная сеть, обучение с подкреплением (т. Е. Сеть настраивается путем самовоспроизведения) и поиск по дереву (которое, как оказалось, является MCTS, но в этом нет необходимости). В нем нет ничего ручного, поэтому сказать, что «его стиль фактически меняется в сторону режима, с которым его сковали программисты», неверно.
И.А. Петр
«Шахматы - все о борьбе между человеческими умами. Это то, что делает их захватывающими. Компьютерные шахматы механические, сухие и мягкие. Конечно, движения очень сильные, но стиля нет». Кто-нибудь проводил хорошо проведенный эксперимент в стиле теста Тьюринга с несколькими гроссмейстерами, играющими анонимного оппонента, который может быть человеком или компьютером?
Если вы считаете, что моя точка зрения заключалась в том, что MCTS является решающим отличием (между альфа-нолем и стокфишем) - вы упускаете мою точку зрения. Я хотел сказать, что люди, а не алгоритмы, решили стиль игры Альфа-ноль, решили решение Альфа-ноль. Моя точка зрения заключалась в том, что эти очень человеческие решения, кажется, придают стиль игры, который кажется гроссмейстерам и любителям решительно не человеком.
user34445
Доктор Эвал выписался
cs.stackexchange.com/questions/68249/… user34445
1
@ user34445 На самом деле, я думаю, что абзац не имеет никакого смысла, я просто пытался его рационализировать. Люди не решили стиль игры AlphaZero, они решили его стиль обучения. Они, конечно, не навязывали ему свое мнение о том, как играть в шахматы.
И.А. Петр
5

Это невероятно интересное время для жизни.

Шахматные компьютеры, начиная с 1970-х годов, использовали алгоритмы поиска на основе минимаксного дерева с использованием альфа-бета-отсечения. Эти программы становились все сильнее и сильнее как благодаря достижениям в скорости компьютера и параллелизму, так и благодаря усовершенствованиям эвристической функции eval, используемой для сокращения ветвей и выбора конечных узлов. Но люди давно заметили, насколько материалистична и скучна компьютерная игра, и многие люди (включая меня) думали, что невозможно закодировать «человеческую» интуицию в программном обеспечении.

Но вы видели эти игры?

AlphaZero демонстрирует невероятно красивую игру, в том числе несколько примеров материальной жертвы ради долгосрочного позиционного преимущества. Это напоминает некоторые из самых красивых игр от людей-мастеров, но с непревзойденной технической точностью. Это первый пример, который я видел в своей жизни за то, что генерируется компьютером, а также имеет глубокую красоту .


Претензия кентавра:

Я слышал, как Гарри говорил это много раз, но это просто неправда. Или, по крайней мере, с AlphaZero на сцене это больше не будет правдой.

Представьте себе, что есть кусок мешка, который имеет 10000 соответствующих продолжений, где 5000 из них являются чисто тактическими (но в основном не связаны друг с другом) и еще 5000, которые в основном позиционные (но в основном не связаны). Как мог человек просеять все эти варианты, не совершив ошибки? Если AlphaZero теперь может взглянуть на эти очень креативные действия, какой вклад может сделать человек?


Последняя граница:

Осталось одно место, где грубый расчет все равно побьет глубокие нейронные сети: эндшпили. Нет такой интуиции, которая побьет настольную базу. Но окончания, которые требуют табличной базы (потому что дерево поиска не может идти достаточно глубоко, чтобы просто вычислить правильный ход), довольно редки. И вы могли бы просто подключить настольную базу к AlphaZero, но это разрушило бы чистоту «самоучки», не так ли?

Fixee
источник
3

Поскольку людям не хватает возможностей для глубокого поиска, как в традиционных компьютерных шахматных программах (fritz, stockfish и др.), Они создают «стратегические принципы» или правила большого пальца (управление центром, развитие, безопасность короля) и концепции или приемы, которые применимы в широком спектре ситуации по-разному, такие как жертвоприношение, ладьи, пара слонов, конкретные концовки, например, как загнать короля в ладью и пешку.

Я думаю, что альфа-ноль независимо друг от друга заново изобрел множество таких концепций (восприятий и концепций), а также усвоил тонны новых - потому что его знания не должны были основываться на функциях оценки человека, а сильный поиск minmax, который всегда предполагает, что противник является гений.

Конечно, в некоторых ситуациях такие принципы противоречат друг другу, поэтому тщательно изучают различные вступительные пьесы и подводные камни - например, не развивайте королеву слишком рано.

С другой стороны, люди также замечают, что когда вы теряете одну фигуру (без обмена), вы ослабляете свои силы, поэтому они крайне осторожны, чтобы не потерять фигуру без компенсации.

Я думаю, что игра Альфазеро освободила компьютерные шахматы (и человеческие шахматы) от рабского страха потерять мелкий материал и чрезмерную уверенность в открытии книг и ценностей.

Игры Alphazero показывают, что такие вещи, как «стратегические принципы», такие как управление центром, развитие, пространство, инициатива, гораздо важнее, если ваш оппонент небрежен. Другими словами, «жертва» на самом деле не жертва, а обмен части на выигрыш в инициативе, позиции, направленном движении.

Alphago (не ноль) полагался на человеческую оценку, но alphazero настраивает всю цепочку оценки на «поиск или симуляцию» как единый сквозной процесс и предлагает совершенно новый способ игры.

Если вы подумаете об этом, великих мастеров прошлого, таких как Морфи, Фишер, Каспаров, хвалят, как правило, за такую ​​интуитивную игру, где они не ограничены письменной оценкой, используя специальные ситуации, которые всплывать. Я думаю, что игры альфа-ноль имеют такой «вау» фактор.

Почему нейронные сети. В то время как компьютерные программы, которые используют символическое представление и дискретный поиск, могут использовать только «один» способ мышления, нейронные сети могут параллельно обрабатывать ситуации с альтернативными, противоречивыми оценками и переходить к более ценному представлению на более поздних уровнях.

Рави Аннасвами
источник
2

Более человечен в том смысле, что ходы, которые он выполняет, похоже, в большей или меньшей степени совпадают с подходом человека: игра ради долгосрочного преимущества, позиционные жертвы, фигурная активность. Существует очевидное сближение с человеческими шахматными знаниями и общепринятыми стратегическими принципами, усовершенствованными на протяжении веков (например, он «открыл» много одинаковых открытий). Это замечательно, учитывая тот факт, что AlphaZero не был засеян искусственными шахматными знаниями.

Но сходство заканчивается здесь. AlphaZero выводит его на следующий уровень и делает это лучше, и так, как люди никогда не задумывали. AlphaZero обладает «сверхчеловеческими» способностями процитировать статью: «AlphaZero достигла сверхчеловеческого уровня игры [...]» ( https://arxiv.org/pdf/1712.01815.pdf ). Кроме того, у него нет слабостей, присущих людям: проблемы концентрации, страха, усталости, чувств, интуиции и т. Д., Которые ограничивают людей. А его кремниевый мозг допускает тактические комбинации за пределами человеческих возможностей, когда это необходимо.

AdamL
источник
2
Тогда возникает парадокс. Stockfish извлекает выгоду из человеческого опыта; Альфазеро нет. Но альфа ноль кажется более человечным. Возможно, это означает, что мы не сделали с поколением Stackfish очень хорошую работу по отгонке наших мыслей
Филип Роу
1

Я хочу сказать спасибо всем, кто ответил на этот вопрос, часто с тонкостью и проницательностью. Мне кажется, главное отличие в ответах заключается в толковании слова «человек».

AlphaZero не играет в человеческие шахматы в смысле упущений и просчетов, но его «мыслительный» процесс в усиленной форме соответствует тому, как я думаю, что думают большинство сильных игроков. Вы довольно быстро составляете список «ходов-кандидатов», которые вы хотели бы сыграть, и для сильнейших игроков этот список удивительно точен, даже играя в нечто вроде узнаваемой игры за одну минуту. Остальное время тратится на вопрос, какие из ходов в этом списке действительно работают? Петросян сказал, что он больше всего чувствовал себя в форме, когда ход, который он в конце концов сыграл, был тем, о котором он впервые подумал. Мы все знаем, как приятно, когда ход, который мы больше всего хотели сыграть, оказывается тактически выполнимым. Я могу относиться к алгоритму AlphaZero гораздо проще, чем к поиску AlphaBeta,

То, что кажется наиболее интересным, - это то, как машина смогла по собственной инициативе распознать перспективных кандидатов. В этом и заключается потенциал настоящей революции. Интересно, возможно ли это только для таких областей, как шахматы и го, где цели могут быть четко определены. Но я нахожу поразительным, что AlphaZero, кажется, демонстрирует целенаправленную игру, но Stockfish понятия не имеет, что происходит.

Филип Роу
источник
0

Насколько я понимаю, нейронные сети, реальное преимущество A0 - превосходная оценка позиций на доске. Эта оценка включает в себя как краткосрочное тактическое знание (которое в некотором смысле служит множителем числа исследованных позиций), так и превосходную оценку стратегической ценности.

Стейнар Ватне
источник
1
Добро пожаловать в шахматы SE! Не могли бы вы дать ссылку на причины, по которым вы думаете, нейронные сети работают таким образом?
Пабло С. Окал
0

Я чувствую, что вся дискуссия упущена из-за того, что А0 может играть в шахматы, сёги и идти, все очень хорошо и все благодаря самообучению. Это гораздо более человечно. Кроме того, в ходу он открыл глубоко новые идеи для лучших игроков (насколько я понимаю). Другие двигатели очень специфичны для задач, A0 выглядит иначе. Я хотел бы видеть это играть в шахматы960.

fidge
источник
1
Я не понимаю, как это отвечает на вопрос.
SmallChess
-2

Я не думаю, что в Альфе есть что-то «человеческое». Он просто использовал более сильную технику и играл в более качественные шахматы. Хорошие ходы открытия, которые он находит (например, на стороне короля фианкетто с Bg2), полностью обусловлены его имитированной книгой открытия. Понятия, которые меня впечатлили и которые я сформулировал в «Секрете шахмат»: http://davidsmerdon.com/?p=1970 , который Альфа впервые использует среди топовых движков, - это продвинутые более длинные цепочки, например d4 -e5-f6 цепочка, которая превзошла целую фигуру в игре жертвоприношений Bg6, и центральные отсталые, как видно из игр французской обороны между обоими двигателями. Обе концепции предполагают поиск на больших глубинах, и, вероятно, здесь Alpha помогла его огромная аппаратная часть. Иначе я не вижу ничего человеческого в его игре. Многие из игр были, по общему признанию,

Людмил Цветков
источник
5
Эти два ваших утверждения неверны: 1) «Он просто использовал гораздо более сильное оборудование» - да, он использовал гораздо более сильное оборудование, чем Stockfish, но это не то, что имеет значение. Это совершенно другое программное обеспечение, которое требует сильного оборудования. 2) «Хорошие ходы открытия, которые он находит, полностью из-за его смоделированной книги открытия». - Он не использует никаких открытий книги.
И.А. Петр
Именно это и делает разницу: экспоненциально большее аппаратное обеспечение Alpha. Каждый шахматный тестер знает, что удвоение скорости увеличивает силу шахмат примерно на 70 элос или около того, в зависимости от программного обеспечения. Разница между 32 ядрами и 4TPU, 1000-2000 ядер, составляет 6 удвоений или около того. Это было бы за 420 элос. Таким образом, на самом деле, хотя на этом оборудовании он показал на 100 элос сильнее, на равных условиях альфа слабее примерно на 300 элос.
Людмил Цветков
Конечно, он использует вводную книгу, независимо от того, на что они претендуют. Альфа была обучена на лучших играх GM. Это очень отчетливо прослеживается, если посмотреть на выбор дебютов Альфы: именно те открытия, которые рекомендует современная теория, и именно те, где шансы на победу являются лучшими. Вы не fianchetto с Bg2 просто так.
Людмил Цветков
3
@ Людмил, Google добился чего-то удивительного в Alpha Zero. Он научил себя этим ходам, играя против себя, зная только правила игры! Обвиняя в мошенничестве команду Alpha Zero, вы не поняли ни их достижения, ни их миссии - они раздвигают границы ИИ и одним маленьким жестом на этом пути побеждают все существующие шахматные движки и человеческие таланты во второй половине дня!
saille
1
@LyudmilTsvetkov Вы совершенно не правы. Альфа ноль (и это главное ) тренируется без человеческих игр. Он рассказал правилам, а затем изобрел каждый аспект своей игры за четыре часа игры сам по себе без каких-либо новых внешних данных.
Маверик