В курсе машинного обучения Эндрю Нг он знакомит с линейной регрессией и логистической регрессией и показывает, как подобрать параметры модели с использованием градиентного спуска и метода Ньютона.
Я знаю, что градиентный спуск может быть полезен в некоторых приложениях машинного обучения (например, обратное распространение), но в более общем случае есть какая-либо причина, по которой вы не решите параметры в закрытой форме, т. Е. Взяв производную от функция стоимости и решение с помощью исчисления?
В чем преимущество использования итеративного алгоритма, такого как градиентный спуск, по сравнению с решением в замкнутой форме в целом, когда оно доступно?
Ответы:
Если решение для закрытой формы чрезвычайно дорого для вычисления, оно обычно является подходящим вариантом, когда оно доступно. Тем не мение,
Для большинства задач нелинейной регрессии не существует решения в замкнутой форме.
Даже в случае линейной регрессии (один из немногих случаев, когда доступно решение в закрытой форме), использование формулы может быть нецелесообразным. В следующем примере показан один из способов, которым это может произойти.
Для линейной регрессии на модели вида , где - матрица с полным рангом столбца, решение наименьших квадратов,y=Xβ X
дан кем-то
Теперь представьте, что - очень большая, но разреженная матрица. Например, может иметь 100 000 столбцов и 1 000 000 строк, но только 0,001% записей в отличны от нуля. Существуют специализированные структуры данных для хранения только ненулевых записей таких разреженных матриц.X X X
Также представьте, что нам не повезло, и - довольно плотная матрица с гораздо более высоким процентом ненулевых записей. Хранение плотной матрицы размером 100 000 на 100 000 элементов тогда потребует чисел с плавающей запятой (при 8 байтах на число, это составляет 80 гигабайт.) Это было бы нецелесообразно хранить на чем-либо но суперкомпьютер. Кроме того, обратная сторона этой матрицы (или чаще фактор Холецкого) также имеет тенденцию иметь в основном ненулевые записи.XTX XTX 1×1010
Однако, есть итерационные методы для решения задачи наименьших квадратов , которые не требуют больше памяти , чем , , и и никогда явно не образуют произведение матриц .X y β^ XTX
В этой ситуации использование итеративного метода намного эффективнее в вычислительном отношении, чем использование решения в форме наименьших квадратов в замкнутой форме.
Этот пример может показаться нелепо большим. Тем не менее, большие разреженные задачи наименьших квадратов такого размера обычно решаются итерационными методами на настольных компьютерах в исследованиях сейсмической томографии.
источник
Было несколько постов по машинному обучению (ML) и регрессу. ML не требуется для решения обычных наименьших квадратов (OLS), поскольку он включает одношаговую матричную операцию сэндвича для решения системы линейных уравнений - т.е. . Тот факт, что все является линейным, означает, что для определения коэффициентов требуется только одношаговая операция. Логистическая регрессия основана на максимизации функции правдоподобия , которая может быть решена с помощью Ньютона-Рафсона или других методов градиентного подъема ML, метаэвристики (восхождение на гору, генетические алгоритмы, интеллект роя, оптимизация колонии муравьев и т. Д.) ,β=(XTX)−1XTy L=∏ipi
Что касается экономии средств, использование ML для OLS было бы расточительным, потому что итеративное обучение неэффективно для решения OLS.
Теперь вернемся к вашему реальному вопросу о подходах к производным и ML к решению градиентных задач. В частности, для логистической регрессии обычно используется подход градиентного спуска Ньютона-Рафсона (на основе производных). Ньютон-Рафсон требует, чтобы вы знали целевую функцию и ее частные производные по каждому параметру (непрерывный в пределе и дифференцируемый). ML в основном используется, когда целевая функция слишком сложна («изначально») и вы не знаете производных. Например, искусственная нейронная сеть (ANN) может использоваться для решения проблемы аппроксимации функции или контролируемой задачи классификации, когда функция неизвестна. В этом случае ИНС является функцией.
Не делайте ошибку, используя методы ML для решения проблемы логистической регрессии, просто потому, что вы можете. Для логистики Ньютон-Рафсон чрезвычайно быстр и является подходящим методом для решения проблемы. ML обычно используется, когда вы не знаете, что это за функция. (кстати, ИНС из области вычислительного интеллекта, а не ОД).
источник