AlphaGo (и другие игровые программы, использующие обучение с подкреплением) без базы данных людей

13

Я не специалист в данной области, и мой вопрос, вероятно, очень наивный. Это вытекает из эссе, чтобы понять возможности и ограничения обучения подкрепления, как используется в программе AlphaGo.

Программа AlphaGo была построена с использованием, среди прочего (исследование деревьев в Монте-Карло и т. Д.) Нейронных сетей, которые обучаются на основе огромной базы данных го-игр, в которые играют люди, и которые затем усиливаются, позволяя играть в версии игры. программа против себя много раз.

Теперь мне интересно, что произойдет, если мы попытаемся создать такую ​​программу без человеческой базы данных, то есть, начав с базовой программы Go, просто зная правила и какой-то метод исследования деревьев, и позволяя играть против себя, чтобы улучшить свою нейронную сеть. Сможем ли мы после многих игр против себя найти программу, способную конкурировать или побеждать лучших игроков? И если да, сколько игр (в порядке величины) потребуется для этого? Или наоборот, такая программа приблизится к гораздо более слабому игроку?

Я предполагаю, что эксперимент не был проведен, так как AlphaGo - это совсем недавно. Но ответ все же может быть очевиден для специалиста. В противном случае любое обоснованное предположение заинтересует меня.

Можно также задать тот же вопрос для «более простых» игр. Если мы будем использовать примерно ту же технику обучения с подкреплением, которую использовали для AlphaGo, но без использования человеческой базы данных для шахматной программы, получим ли мы программу, способную победить лучшего человека? И если да, то как быстро? Это было опробовано? Или если не для шахмат, как насчет шашки, или даже более простые игры?

Большое спасибо.

Жоэль
источник

Ответы:

10

Я не эксперт, но, похоже, AlphaGo Zero отвечает на ваш вопрос. https://deepmind.com/blog/alphago-zero-learning-scratch/

Предыдущие версии AlphaGo изначально обучались тысячам любительских и профессиональных игр для людей, чтобы научиться играть в Го. AlphaGo Zero пропускает этот шаг и учится играть просто, играя в игры против себя, начиная с абсолютно случайной игры. При этом он быстро превзошел человеческий уровень игры и победил ранее опубликованную версию AlphaGo, побеждающую чемпионов, со счетом 100 игр до 0.

Гейб
источник
Это более свежее?
Kosmos
1
Это было опубликовано 18 октября 2017 года.
Ncasas
Было бы интересно узнать результаты против людей. Потому что одна из причин заранее подготовленные человеческой базы данных для уточнения MCTS алгоритма против человеческих противников. Оригинальный AlphaGo был оптимизирован, чтобы играть против людей, а не других ML. Таким образом, сложнее сказать, является ли AlphaGo Zero строго «лучше», чем оригинальный AlphaGo, или просто доминирует над ним в смысле теории игр - например, AlphaGo Zero обыгрывает AlphaGo обыгрывает Lee Sedol обыгрывает AlphaGo Zero. , ,
Нил Слэйтер
4
Нил, да это было бы интересно. Но я бы не стал ставить ни цента на человеческие шансы против Alpha Go.
Жоэль
1
Q
9

Тот же вопрос был задан автору статьи AlphaGo, и он ответил, что мы не знаем, что произойдет, если AlphaGo будет учиться с нуля (они не проверяли это).

Однако, учитывая сложность игры, было бы сложно разработать алгоритм с нуля без предварительного знания. Таким образом, в начале целесообразно начать строить такую ​​систему, обновив ее до уровня мастера, используя знания, полученные людьми.

Стоит отметить, что, хотя человек перемещает смещение выбора действий в узлах (состояниях) дерева, этот априор имеет фактор затухания. Это означает, что увеличение посещений в определенном состоянии, снижение силы до, чтобы поощрить алгоритм для изучения.

Текущий уровень Мастерства AlphaGo неизвестен, насколько он близок или далек от способа игры человека (в турнире он сделал один ход, который у человека был почти нулевой шанс выполнить! - но также сделал некоторые действительно плохие ходы) , Возможно, на все эти вопросы остается ответить путем фактической реализации соответствующих алгоритмов тестирования.

Я обязан отредактировать свой ответ, поскольку недавняя статья DeepMind отвечает на ваш вопрос. За весь предыдущий опыт работы с первой версией AlphaGo появилось много улучшений, которые действительно стоит прочитать.

Константинос
источник
Добро пожаловать :)
Константинос
8

Насколько я понял алгоритм AlphaGo, он основан на простой структуре обучения с подкреплением (RL), использующей поиск по дереву Монте-Карло для выбора лучших действий. Вдобавок ко всему, состояния и действия, охватываемые алгоритмом RL, представляют собой не просто всю возможную конфигурацию игры (Go имеет огромную сложность), но основаны на сети политик и сети ценностей, извлеченных из реальных игр, а затем улучшено, играя в игры AlphaGo против AlphaGo.

Тогда мы могли бы задаться вопросом, является ли обучение из реальных игр просто ярлыком для экономии времени или необходимым вариантом для достижения такой эффективности. Думаю, никто не знает ответа, но мы могли бы высказать некоторые предположения. Во-первых, способность человека продвигать хорошие движения обусловлена ​​гораздо более сложным интеллектом, чем простая нейронная сеть. Для настольных игр это смесь памяти, опыта, логики и чувств. В этом направлении я не уверен, что алгоритм AlphaGo мог бы построить такую ​​модель без явного изучения огромного процента всей конфигурации игры Go (что практически невозможно). Текущие исследования направлены на построение более сложного представления такой игры, как реляционная логика или обучение индуктивной логике. Тогда для более простых игр (может быть в случае с шахматами, но не уверен),

Все же это только мнение. Но я совершенно уверен, что ключ к ответу на ваш вопрос находится в подходе RL, который в настоящее время все еще довольно прост с точки зрения знаний. На самом деле мы не можем определить, что делает нас способными справиться с этими играми, и лучший способ победить человека, который мы нашли до сих пор, - это грубо учиться у него и немного улучшать изученную модель с помощью массивных вычислений.

Робин
источник
1

Конкурентоспособная самостоятельная игра без человеческой базы данных возможна даже в сложных, частично наблюдаемых средах. OpenAI фокусируется на этом направлении. Согласно этой статье :

Самостоятельная игра гарантирует, что окружающая среда всегда является подходящей трудностью для улучшения ИИ.

Это важная причина успеха самостоятельной игры.

11 августа 2017 года OpenAI добился сверхчеловеческих результатов для Dota 2 1 на 1, обойдя Денди 2: 0 по стандартным правилам турнира.

Бот изучил игру с нуля путем самостоятельной игры и не использует имитационное обучение или поиск по дереву. Это шаг к построению систем искусственного интеллекта, которые решают четко определенные задачи в сложных, сложных ситуациях с участием реальных людей.

Не только игры, это направление также перспективно для задач робототехники.

Мы обнаружили, что самостоятельная игра позволяет симулируемым ИИ открывать для себя физические навыки, такие как захват, уклонение, подделка, удар ногой, ловля и прыжки в мяч, без явного проектирования среды с учетом этих навыков.

На следующем этапе они расширяют метод, чтобы научиться сотрудничать, соревноваться и общаться , а не ограничиваться только самостоятельной игрой.

TQA
источник