Каждый учебник, который я видел до сих пор, описывает алгоритмы ML и способы их реализации.
Есть ли также учебник, который строит теоремы и доказательства поведения этих алгоритмов? например, заявив, что в условиях градиентный спуск всегда будет приводить к ?
Ответы:
«Основы машинного обучения » Мехьяра Мохри, Афшина Ростамизаде и Амета Тальвалкара - книга 2012 года по теории машинного обучения.
Понимание машинного обучения: от теории к алгоритмам , Шаи Шалев-Шварц и Шай Бен-Давид, похожая книга 2014 года, которая достаточно известна и нацелена на несколько более вводную информацию, чем Мори / Ростамизаде / Тальвалкар, но все еще имеет много теории в Это. Это свободно доступно онлайн.
Обучение нейронным сетям: теоретические основы , написанные Мартином Энтони и Питером Бартлеттом, - это книга 1999 года о теории ML, сформулированная как посвященная нейронным сетям, но (на мой взгляд, я ее не читал) в основном посвящена теории ML в целом.
Эти три книги в основном придерживаются доминирующей точки зрения теории статистического обучения. Существует также интересная точка зрения, называемая вычислительной теорией обучения, которая больше вдохновлена теорией информатики. Я думаю, что стандартной вводной книгой в этой области является Введение в теорию компьютерного обучения , книга 1994 года Майкла Кернса и Умеша Вазирани.
Другая превосходная и часто рекомендуемая книга в свободном доступе - это Тревор Хасти, Роберт Тибширани и второе издание «Элементы статистического обучения» Джерома Фридмана за 2009 год . Это, возможно, немного менее теоретически, чем другие, и больше с точки зрения статистики, чем у обучающихся машин, но все еще вызывает большой интерес.
Кроме того, если вы заботитесь, в частности, о градиентном спуске, стандартным справочником является выпуклая оптимизация Стивена Бойда и Ливена Ванденберге. Эта книга 2004 года свободно доступна онлайн.
Ни одна из этих книг не содержит много информации о современной теории глубоких сетей, если это то, что вас волнует. (Например, большая часть теории оптимизации будет о выпуклых случаях, которые, безусловно, не являются глубокими сетями.) Это потому, что эта теория очень новая; большинство результатов появилось только за последние несколько лет, и это еще очень важно выяснить. Но, как обзор базового понимания области до сих пор, любой из них поможет вам лучше понять документы, в которых выполняется эта работа (за исключением, возможно, Kearns / Vazirani, который фокусируется на различных аспектах анализа, которые я ' я не уверен, что был успешно применен к глубоким сетям - пока).
источник
Машинное обучение: вероятностная перспектива Кевина П. Мерфи объясняет многое из теории Байеса (я использовал ее только для логистической регрессии, но я подумал, что это довольно хорошо). Вся книга доступна онлайн в формате PDF с помощью поиска в Google.
источник
В добавок к этому,
источник
Проектирование нейронных сетей (Мартин Т. Хейган, Говард Б. Демут, Марк Хадсон Бил, Орландо де Хесус) обсуждает оптимизацию в контексте нейронных сетей.
источник