По какой-то причине AlphaGo Zero не пользуется такой же популярностью, как оригинальный AlphaGo, несмотря на его невероятные результаты. Начиная с нуля, он уже побеждал AlphaGo Master и прошел множество других тестов. Еще более невероятно, что это сделано за 40 дней. Google называет его «возможно лучшим игроком в го в мире» .
DeepMind утверждает, что это «новая форма обучения с подкреплением» - действительно ли эта техника нова? Или были другие времена, когда этот метод использовался - и если так, каковы были их результаты? Я думаю, что требования, о которых я говорю, это 1) отсутствие вмешательства человека и 2) отсутствие исторической игры, но они гибкие.
Это , как представляется, подобный вопрос, но все ответы , кажется, исходить из предположения , что AlphaGo Ноль является первым в своем роде.
источник
Ответы:
AlphaGo Нулевая статья от природы , «Освоение игры Го без человеческого знания», утверждает четыре основных отличия от предыдущей версии:
Пункты (1) и (2) не являются новыми в изучении подкрепления, но улучшают предыдущее программное обеспечение AlphaGo, как указано в комментариях к вашему вопросу. Это просто означает, что они теперь используют чистое обучение подкреплению, начиная со случайно инициализированных весов. Это обеспечивается лучшими, более быстрыми алгоритмами обучения.
Здесь они утверждают: «Наш основной вклад - продемонстрировать, что сверхчеловеческие характеристики могут быть достигнуты без знания человеческой сферы». (с. 22).
Пункты (3) и (4) являются новыми в том смысле, что их алгоритм проще и более общий, чем их предыдущий подход. Они также упоминают, что это улучшение предыдущей работы Guo et al.
Унификация сети политики / ценности (3) позволяет им реализовать более эффективный вариант поиска по дереву Монте-Карло для поиска удачных ходов и одновременного использования дерева поиска для более быстрого обучения сети (4). Это очень сильно.
Кроме того, они описывают ряд интересных деталей реализации, таких как пакетирование и повторное использование структур данных, чтобы оптимизировать поиск новых шагов.
Эффект заключается в том, что ему требуется меньше вычислительной мощности, поскольку он работает на 4 TPU, а не на 176 GPU и 48 TPU для предыдущих версий их программного обеспечения.
Это определенно делает его «новым» в контексте программного обеспечения Go. Я полагаю, что (3) и (4) также являются «новыми» в более широком контексте и будут применимы в других областях обучения подкреплению, таких как, например, робототехника.
источник