Контролируемое обучение
- 1) Человек строит классификатор на основе входных и выходных данных
- 2) Этот классификатор обучается с обучающим набором данных
- 3) Этот классификатор тестируется с тестовым набором данных
- 4) Развертывание, если выход удовлетворительный
Для использования, когда «я знаю, как классифицировать эти данные, мне просто нужно, чтобы вы (классификатор) отсортировали их».
Точка метода: для меток классов или для получения действительных чисел
Неконтролируемое обучение
- 1) Человек строит алгоритм на основе входных данных
- 2) Этот алгоритм тестируется с тестовым набором данных (в котором алгоритм создает классификатор)
- 3) Развертывание, если классификатор удовлетворительный
Для использования, когда: «Я понятия не имею, как классифицировать эти данные, вы можете (алгоритм) создать классификатор для меня?»
Точка метода: для меток классов или для прогнозирования (PDF)
Усиление обучения
- 1) Человек строит алгоритм на основе входных данных
- 2) Этот алгоритм представляет состояние, зависящее от входных данных, в которых пользователь награждает или наказывает алгоритм посредством действия , предпринятого алгоритмом, это продолжается со временем
- 3) Этот алгоритм учится на награду / наказание и обновляет себя, это продолжается
- 4) Он всегда в производстве, ему нужно изучать реальные данные, чтобы иметь возможность представлять действия от государств
Для использования, когда «я понятия не имею, как классифицировать эти данные, можете ли вы классифицировать эти данные, и я дам вам вознаграждение, если это правильно, или я накажу вас, если это не так».
Является ли это потоком этих практик, я много слышу о том, что они делают, но практическая и образцовая информация ужасно мала!
Ответы:
Это очень хорошее компактное введение в основные идеи!
Усиление обучения
Я думаю, что ваше описание варианта использования обучения с подкреплением не совсем верно. Термин классифицировать не подходит. Лучшее описание будет:
Другими словами, цель состоит скорее в том, чтобы что-то хорошо контролировать , чем в том, чтобы что-то хорошо классифицировать .
вход
Алгоритм
Выход
источник
Отказ от ответственности: я не эксперт, и я даже никогда не делал что-то с обучением подкреплению (пока), поэтому любые отзывы будут приветствоваться ...
Вот ответ, который добавляет к вашему списку несколько крошечных математических заметок и несколько разных мыслей о том, когда и что использовать. Я надеюсь, что перечисление достаточно очевидно:
контролируемый
Настройка для классификации и регрессии
бесконтрольный
Настройка для кластеризации, уменьшения размерности, поиска скрытых факторов, генеративных моделей и т. Д.
армирование
Это кажется особенно полезным для последовательного решения задач.
Ссылки:
Си, Дж., Барто, А., Пауэлл, У. и Вунш, Д. (2004) Обучение с подкреплением и его связь с контролируемым обучением, в «Руководстве по обучению и приблизительному динамическому программированию», John Wiley & Sons, Inc., Хобокен, Нью-Джерси, США. doi: 10.1002 / 9780470544785.ch2
источник