Алгоритм табличного Q-обучения гарантированно найдет оптимальную функцию, , при условии, что выполнены следующие условия (условия Роббинса-Монро ) относительно скорости обучения
где означает скорость обучения, используемую при обновлении значения связанного с состоянием и действием на временном шаге , где предполагается истинным, для все состояния и действия .
По-видимому, учитывая, что , чтобы оба условия выполнялись, все пары состояния-действия должны посещаться бесконечно часто: об этом также говорится в книге « Обучение подкреплению: введение» , помимо того , что это должно быть широко известно и является обоснование использования в -greedy политики (или аналогичной политики) во время тренировки.
Полное доказательство того, что обучение находит оптимальную функцию можно найти в статье « Сходимость Q-обучения: простое доказательство» (Франсиско С. Мело). Он использует такие понятия, как сопоставление сокращений , чтобы определить оптимальную функцию (см. Также Что такое оператор Беллмана в обучении подкреплению? ), Которая является фиксированной точкой этого оператора сжатия. Он также использует теорему (п. 2) о случайном процессе, который сходится к , учитывая несколько предположений. (Доказательство может быть нелегким, если вы не математик.)
Если нейронная сеть используется для представления функции, не имеет место сходимость гарантий - Learning еще держать? Почему (или нет) Q-обучение сходятся при использовании приближения функции? Существует ли формальное доказательство такой не сходимости обучения с помощью приближения функций?
Я ищу разные типы ответов, от тех, которые дают интуицию за не сходимостью обучения при использовании приближения функций к тем, которые предоставляют формальное доказательство (или ссылку на статью с формальным доказательством).
Ответы:
Вот интуитивное описание ответа:
Аппроксимация функции может быть выполнена с помощью любой параметризуемой функции. Рассмотрим проблему пространстваQ ( s , a ) где s - положительные вещественные числа, a - 0 или 1 , а истинная Q-функция - Q ( s , 0 ) = s2 и Q ( с , 1 ) = 2 с2 , для всех состояний. Если ваш аппроксиматор функции Q(s,a)=m∗s+n∗a+b , не существует параметров, которые могли бы точно представить истиннуюфункциюQ (мы пытаемся подобрать линию к квадратичной функции). Следовательно, даже если вы выбрали хорошую скорость обучения и бесконечно часто посещаете все состояния, ваша функция приближения никогда не будет сходиться к истиннойфункцииQ
А вот немного подробнее:
Нейронные сети являются универсальными аппроксиматорами функций . Это означает, что если у вас есть функция, вы также можете создать нейронную сеть, достаточно глубокую или широкую, чтобы она могла приближаться к функции, которую вы создали, в произвольно точной степени. Однако любая топология сети, которую вы выберете, не сможет изучить все функции, если она не будет бесконечно широкой или бесконечно глубокой. Это аналогично тому, как, если вы выберете правильные параметры, линия может соответствовать любым двум точкам, но не любым 3 точкам. Если вы выберете сеть с определенной конечной шириной или глубиной, я всегда могу создать функцию, для которой нужно еще несколько нейронов, чтобы соответствовать.
Границы Q-обучения сохраняются только тогда, когда представление Q-функции является точным . Чтобы понять почему, предположим, что вы выбрали приближение вашей Q-функции с помощью линейной интерполяции. Если истинная функция вообще может принимать любую форму, то очевидно, что ошибка в нашей интерполяции может быть сделана неограниченно большой, просто создав XOR-подобную функцию Q-функции, и никакое дополнительное время или данные не позволят нам уменьшить эту ошибку , Если вы используете аппроксиматор функции, и истинная функция, которую вы пытаетесь установить, нечто-то, что функция может приближаться произвольно хорошо, то ваша модель не будет сходиться должным образом, даже с хорошо выбранной скоростью обучения и скоростью исследования. Используя терминологию теории вычислительного обучения, мы можем сказать, что доказательства сходимости для Q-обучения неявно предполагают, что истинная Q-функция является членом пространства гипотез, из которого вы выберете свою модель.
источник
Насколько я знаю, все еще остается открытой проблемой получить действительно четкое, формальное понимание того, почему / когда мы получаем недостаточную конвергенцию - или, что еще хуже, иногда опасность расхождения. Как правило, это связано с «смертельной триадой» (см. 11.3 второго издания книги Саттона и Барто):
Это только дает нам (возможно, не исчерпывающее) описание случаев, когда у нас отсутствует сходимость и / или существует опасность расхождения, но все же не говорит нам, почему это происходит в этих случаях.
Лично я думаю, что эта интуиция помогает понять, почему алгоритм не может гарантировать сходимость к оптимальному решению, но я все же интуитивно ожидаю, что он, возможно, будет способен «сходиться» к какому-то «устойчивому» решению, которое является наилучшим возможным приближением с учетом ограничения, присущие выбранной функции представления. Действительно, это то, что мы наблюдаем на практике, когда мы переключаемся на обучение по политике (например, Sarsa), по крайней мере, в случае с аппроксиматорами линейных функций.
Наконец, еще одна (еще более свежая) статья, которая, как я подозреваю, имеет отношение к этому вопросу, это « Диагностика узких мест в алгоритмах глубокого обучения» , но, к сожалению, у меня еще не было времени, чтобы прочитать ее достаточно подробно и адекватно ее обобщить.
источник