Есть ли способ научить усиленному обучению в приложениях, отличных от игр?
Единственные примеры, которые я могу найти в Интернете, - это игровые агенты. Я понимаю, что VNC контролирует вход в игры через сеть подкрепления. Можно ли настроить это, скажем, с помощью программного обеспечения САПР?
reinforcement-learning
applications
Марк Марк микроволновый Чарльтон
источник
источник
Ответы:
Один из классных примеров обучения подкреплению - автономный летающий вертолет. У меня была возможность узнать кое-что из того, что недавно сделал Эндрю Нг и другие. Вот исследовательская статья документ . Есть и другие подобные документы тоже. Вы можете погуглить их, если хотите узнать больше.
Вы также можете увидеть это в действии в этом видео на YouTube .
Вот еще одно совершенно другое применение в финансах, по-видимому.
источник
В учебной литературе по подкреплению вы увидите множество игровых примеров, поскольку игровые среды часто можно эффективно кодировать и быстро запускать на одном компьютере, который может содержать среду и агент. Для классических игр, таких как нарды, шашки, шахматы, го, есть эксперты-люди, с которыми мы можем сравнить результаты. Определенные игры или упрощенные игровые среды обычно используются для сравнения различных подходов, подобно тому, как рукописные цифры MNIST используются для сравнения контролируемых подходов к обучению.
Да. Неформально вы можете применять подходы к обучению с подкреплением всякий раз, когда вы можете сформулировать проблему как агент, действующий в среде, где он может быть проинформирован о состоянии и ценности вознаграждения, влияющей на цели. Более формально, теория подкрепляющего обучения основана на решениях Марковских процессов принятия решений , поэтому, если вы можете приспособить описание вашей проблемы к MDP, можно применять различные методы, используемые в RL, такие как Q-learning, SARSA, REINFORCE. Это соответствие теории не обязательно должно быть идеальным для работы получившейся системы, например, вы часто можете рассматривать неизвестное или несовершенно наблюдаемое состояние как эффективно случайное для агента и рассматривать эту часть стохастической среды.
Вот несколько примеров возможного использования для обучения подкреплению вне развлекательных игр:
Логика управления моторизованным роботом, например, обучение переворачиванию блинов и другие примеры . Здесь измерения окружающей среды производятся физическими датчиками на роботе. Награды даются за достижение цели, но также могут быть скорректированы на плавность, экономное использование энергии и т. Д. Агент выбирает действия низкого уровня, такие как крутящий момент двигателя или положение реле. Теоретически могут быть вложенные агенты, в которых высокоуровневые агенты выбирают цели для низкоуровневых - например, робот может на высоком уровне решить между выполнением одной из трех задач, требующих перемещения в разные места, и на более низком уровне может быть решения о том, как управлять двигателями, чтобы переместить робота к выбранной цели.
Самостоятельные автомобили. Несмотря на то, что большое внимание уделяется интерпретации датчиков - с учетом разметки дорог, пешеходов и т. Д., Требуется система управления для выбора акселератора, тормоза и рулевого управления.
Автоматизированная финансовая торговля. Возможно игра для некоторых, есть четкие реальные последствия. Сигнал вознаграждения достаточно прост, хотя, и RL может быть скорректирована, чтобы предпочесть долгосрочные или краткосрочные выгоды.
В теории да, но я не знаю, что может быть доступно для этого на практике. Кроме того, вам необходимо помнить одну или несколько целей, которые вы вводите в код агента (в качестве значений вознаграждения, которые он может наблюдать), прежде чем дать ему виртуальную мышь и задать задачу для рисования чего-либо. Компьютерные игры поставляются со схемой вознаграждения, встроенной в систему подсчета очков, и обеспечивают частую обратную связь, поэтому агент может быстро получить представление о хороших и плохих решениях. Вам нужно будет заменить этот скоринговый компонент чем-то, что представляет ваши цели для системы на основе CAD.
САПР не имеет ничего подходящего встроенного, хотя инструменты САПР с имитацией, такие как различные физические движки или анализ методом конечных элементов, могут позволить вам оценивать проекты на основе смоделированной физической меры. Другие возможности включают анализ напряжения, безотходное использование материала, любые метрики, которые система CAD / CAM может обеспечить для частичного или завершенного проектирования. Сложная часть заключается в том, чтобы ограничить дизайн своей целью или назначением и либо организовать его вознаграждение, либо создать ограничения в среде; Предоставление агенту RL полного неограниченного контроля над процессом САПР и вознаграждение при минимальной нагрузке, вероятно, приведет к чему-то очень неинтересному, например, к маленькому кубу.
источник
Определенно есть способ представить то, что многие называют усиленным обучением, в реальных веб-приложениях, приложениях для мобильных устройств и рабочих станций.
Это делают военные организации, киноиндустрия, компании, занимающиеся программным обеспечением, и я это сделал для компаний из списка Fortune 500 и для малого бизнеса. Существуют адаптивные компоненты обучения во всех видах системных компонентов, встроенных в более крупные системы, от роботов распознавания лиц FaceBook до Google Translate, систем распознавания почтовых индексов USPS и автономных систем управления полетом и движением. Программное обеспечение для автоматизированного проектирования (САПР), безусловно, является жизнеспособной целью.
Основа для армирования
Рассмотрим серию векторов, описывающих события. Представьте, что они разделены на две подсерии A и B. Нейронная сеть (искусственная или биологическая) может быть обучена с использованием A.
Обучение может контролироваться, что означает, что одно из измерений вектора считается меткой и, следовательно, зависимой переменной для оптимального прогнозирования. Другие измерения затем становятся фактами или входными сигналами и, следовательно, независимыми переменными, используемыми для прогнозирования. Тренировка может быть оставлена без присмотра с использованием функции извлечения.
В любом случае, когда предоставляется A до B и ожидается, что он будет работать в производстве (реальном использовании) до прибытия B, более позднее прибытие B представляет выбор.
Выбор № 3 - лучший выбор во многих случаях, поскольку он содержит преимущества вариантов № 1 и № 2. Математически, № 3 достигается тем, что каким-то образом облегчает вытеснение того, что было извлечено из серии А. Вес нейронной сети и корректировки мета-параметров должны быть подвержены коррекции, поскольку новый опыт указывает на необходимость сделать это. Один наивный подход может быть математически сформулирован как обратная экспоненциальная функция, которая моделирует естественный распад во многих явлениях в физике, химии и социальных науках.
В случае подсерий A и B, когда вышеприведенная формула каким-либо образом реализована в механизме обучения, обучение A приведет к меньшему смещению в конечном результате после продолжения обучения с использованием B, поскольку t для A меньше чем t для B, сообщая механизму, что B более вероятно уместен.
Если мы рекурсивно разделим А и В пополам, создавая все более и более детализированные подсерии, вышеупомянутая идея постепенного разложения предыдущей информации остается и действительной, и ценной. Смещение сети к первой информации, используемой для обучения, является эквивалентом психологических концепций ограниченности. Системы обучения, которые развились в мозг млекопитающих, похоже, забывают или теряют интерес к прошлым вещам, чтобы поощрить непредубежденность, которая является не чем иным, как возможностью нового обучения иногда вытеснять предыдущее обучение, если новая информация содержит более сильные образцы для обучения.
Есть две причины, по которым более новые примеры данных постепенно перевешивают более старые примеры данных.
Это необходимо для того, чтобы важность предшествующей информации постепенно снижалась по мере продолжения обучения, что является одним из двух основных аспектов подкрепления. Второй аспект - это набор корректирующих концепций, основанных на идее сигнализации обратной связи.
Обратная связь и усиление
Сигнал обратной связи в усиленном обучении - это машинное обучение, эквивалентное знакомым психологическим понятиям, таким как боль, удовольствие, удовлетворенность и хорошее самочувствие. Системе обучения предоставляется информация, которая направляет обучение за пределы цели извлечения признаков, независимости группировок или поиска матрицы весов нейронной сети, которая аппроксимирует взаимосвязь между входными признаками событий и их метками.
Предоставленная информация может исходить из заранее запрограммированного распознавания образов или извне из вознаграждения и наказания, как в случае с млекопитающими. Методы и алгоритмы, которые разрабатываются в усиленном машинном обучении, часто используют эти дополнительные сигналы (используя квантование времени при обработке) или непрерывно, используя независимость блоков обработки параллельных архитектур обработки.
Эта работа была впервые введена в Массачусетском технологическом институте Норбертом Винером и изложена в его книге «Кибернетика» (MIT Press, 1948). Слово кибернетика происходит от более старого слова, которое означает управление кораблями . Автоматическое движение руля, чтобы остаться на курсе, возможно, было первой механической системой обратной связи. Ваш двигатель газонокосилки, вероятно, имеет один.
Адаптивные приложения и обучение
Простая адаптация в режиме реального времени к положению руля или газу газонокосилки не учится. Такая адаптация обычно представляет собой некоторую форму линейного ПИД-регулирования. Технология машинного обучения, которая сегодня расширяется, охватывает оценку и управление сложными нелинейными системами, которые математики называют хаотичными.
Под хаотичным они не подразумевают, что описанные процессы находятся в безумии или дезорганизованы. Хаотики обнаружили десятилетия назад, что простые нелинейные уравнения могут привести к высокоорганизованному поведению. Они имеют в виду, что это явление слишком чувствительно к небольшим изменениям, чтобы найти какой-то фиксированный алгоритм или формулу для их прогнозирования.
Язык такой. В том же заявлении говорится, что с дюжиной различных вокальных наклонностей может означать дюжину разных вещей. Английское предложение «Действительно» является примером. Вполне вероятно, что методы подкрепления позволят будущим машинам различать с высокой вероятностью успеха различные значения этого утверждения.
Почему игры в первую очередь?
Игры имеют очень простой и легко определяемый набор возможных сценариев. Джон фон Нейман, один из основных участников появления компьютера, утверждал в книге « Теория игр и экономического поведения» , которую он в соавторстве с Оскаром Моргенштерном, что все планирование и принятие решений на самом деле являются играми различной сложности.
Рассмотрим игры как учебный пример набора мозгов, который со временем создаст системы, которые могут определять значение утверждения, как могут образованные люди, из трех источников подсказок.
Помимо шахмат и игры в го
На пути от игр к языковым системам с точным пониманием и более глубокими способностями к слушанию есть несколько приложений усиленного обучения, которые имеют гораздо большее значение для Земли и человеческого опыта.
Эти четыре и многие другие гораздо важнее, чем накопление богатства с помощью автоматической высокоскоростной торговли или выигрышей игровых соревнований, двух интересов, связанных с автоматическим машинным обучением, которые влияют лишь на одно или два поколения семьи одного человека.
Богатство и слава - это то, что в теории игр называется игрой с нулевой суммой . Они приносят столько же потерь, сколько и выигрышей, если учесть более высокую философию Золотого правила, согласно которой другие и их семьи имеют для нас одинаковое значение.
Программное обеспечение для усиленного обучения для САПР (автоматизированного проектирования)
Компьютерное проектирование является естественным предшественником компьютерного дизайна (без помощи людей), так же как разрывы с антиблокировкой естественным образом приводят к полностью автономным транспортным средствам.
Рассмотрим команду: «Создайте мне мыльницу для душа, которая максимально увеличивает вероятность того, что моя семья сможет схватить мыло с первой попытки, не открывая глаз, и сводит к минимуму трудности в поддержании чистоты мыла и поверхностей душа. Вот высота члены моей семьи и несколько фотографий душевой. " Затем на устройстве появится готовый к подключению 3D-принтер вместе с инструкциями по установке.
Конечно, такую систему компакт-дисков (САПР без А) необходимо обучить ведению домашнего хозяйства, поведению человека без видения, способам прикрепления предметов к плитке, инструментам и возможностям обслуживания дома обычного потребителя, возможностям 3D-принтера. и несколько других вещей.
Такие разработки в области автоматизации производства, вероятно, начнутся с углубленного изучения более простых команд, таких как «Присоедините эти две части, используя крепежные детали серийного производства и лучшие практики». Затем программа САПР будет выбирать оборудование из винтов, заклепок, клеев и других опций, возможно, задавая вопросы проектировщику о рабочих температурах и диапазонах вибрации. Выбор, положение и угол будут добавлены к соответствующему набору деталей CAD, сборочных чертежей и спецификаций.
источник