Что такое «новый алгоритм обучения подкреплению» в AlphaGo Zero?

10

По какой-то причине AlphaGo Zero не пользуется такой же популярностью, как оригинальный AlphaGo, несмотря на его невероятные результаты. Начиная с нуля, он уже побеждал AlphaGo Master и прошел множество других тестов. Еще более невероятно, что это сделано за 40 дней. Google называет его «возможно лучшим игроком в го в мире» .

DeepMind утверждает, что это «новая форма обучения с подкреплением» - действительно ли эта техника нова? Или были другие времена, когда этот метод использовался - и если так, каковы были их результаты? Я думаю, что требования, о которых я говорю, это 1) отсутствие вмешательства человека и 2) отсутствие исторической игры, но они гибкие.

Это , как представляется, подобный вопрос, но все ответы , кажется, исходить из предположения , что AlphaGo Ноль является первым в своем роде.

Dubukay
источник
Усиленное обучение не ново. Какими приемами Google утверждал, что они первые?
HelloWorld,
Об этом есть цитата на связанном веб-сайте, и в статье они используют фразу «Нейронная сеть в AlphaGo Zero обучена играм самопожертвования по новому алгоритму обучения с подкреплением».
Дубукай
1
Самостоятельная игра определенно не нова. Это существовало до Google. В их алгоритме есть детали, которые делают их «новыми». Может быть, кто-то еще может ответить.
HelloWorld,
2
Я понимаю это - я думаю, что я пытаюсь понять, что сделало их подход таким невероятно хорошим, и стоит ли это ожидать от других областей. Это новая философия или просто действительно хороший код?
Дубукай
1
Я нашел копию документа здесь: nature.com/articles/… (включает токен доступа к ресурсам , который находится в блоге, который ссылается на него, так что это законный общий доступ AFAICS). Даже после прочтения описания, хотя трудно выделить фактическую новизну - все отдельные идеи кажутся уже существующими техниками RL / игрового процесса, это может быть просто их конкретная комбинация, которая нова
Нил Слейтер,

Ответы:

6

AlphaGo Нулевая статья от природы , «Освоение игры Го без человеческого знания», утверждает четыре основных отличия от предыдущей версии:

  1. Только для самообучения (не тренируется на людских играх)
  2. Использование только доски и камней в качестве входных данных (без рукописных функций).
  3. Использование единой нейронной сети для политик и ценностей
  4. Новый алгоритм поиска по дереву, который использует эту объединенную сеть политики / стоимости, чтобы указать, где искать удачные ходы.

Пункты (1) и (2) не являются новыми в изучении подкрепления, но улучшают предыдущее программное обеспечение AlphaGo, как указано в комментариях к вашему вопросу. Это просто означает, что они теперь используют чистое обучение подкреплению, начиная со случайно инициализированных весов. Это обеспечивается лучшими, более быстрыми алгоритмами обучения.

Здесь они утверждают: «Наш основной вклад - продемонстрировать, что сверхчеловеческие характеристики могут быть достигнуты без знания человеческой сферы». (с. 22).

Пункты (3) и (4) являются новыми в том смысле, что их алгоритм проще и более общий, чем их предыдущий подход. Они также упоминают, что это улучшение предыдущей работы Guo et al.

Унификация сети политики / ценности (3) позволяет им реализовать более эффективный вариант поиска по дереву Монте-Карло для поиска удачных ходов и одновременного использования дерева поиска для более быстрого обучения сети (4). Это очень сильно.

Кроме того, они описывают ряд интересных деталей реализации, таких как пакетирование и повторное использование структур данных, чтобы оптимизировать поиск новых шагов.

Эффект заключается в том, что ему требуется меньше вычислительной мощности, поскольку он работает на 4 TPU, а не на 176 GPU и 48 TPU для предыдущих версий их программного обеспечения.

Это определенно делает его «новым» в контексте программного обеспечения Go. Я полагаю, что (3) и (4) также являются «новыми» в более широком контексте и будут применимы в других областях обучения подкреплению, таких как, например, робототехника.

mjul
источник
Я думаю (4) упоминается в лекциях Дэвида Сильвера - лекция 10 о классических играх - во многих существующих случаях MCTS руководствуется уже обученным ОД. В случае AlphaGo Zero это переворачивается, и результат MCTS используется для установки целей обучения для ML. Однако, вещь, которая заставляет меня задуматься о том, является ли она действительно «новой», - это возможность делать именно то, что упоминается в лекции. , ,
Нил Слэйтер