Вопросы с тегом «convex»

27
Зачем изучать выпуклую оптимизацию для теоретического машинного обучения?

Я работаю над теоретическим машинным обучением - по переводному обучению, если быть точным - для моего доктора философии. Из любопытства, почему я должен пройти курс по выпуклой оптимизации? Какие выводы из выпуклой оптимизации я могу использовать в своих исследованиях теоретического машинного...

25
Для выпуклых задач всегда ли градиент в Стохастическом градиентном спуске (SGD) указывает на глобальное экстремальное значение?

Учитывая выпуклую функцию стоимости, используя SGD для оптимизации, мы будем иметь градиент (вектор) в определенной точке в процессе оптимизации. Мой вопрос, учитывая точку на выпуклом, градиент только указывает в направлении, в котором функция увеличивается / уменьшается быстрее всего, или...

22
Почему функция стоимости нейронных сетей невыпуклая?

Здесь есть похожая тема ( функция стоимости нейронной сети невыпуклая? ), Но я не смог понять суть вопросов в ответах и ​​мою причину повторного запроса, надеясь, что это прояснит некоторые проблемы: Если я использую функцию суммы квадратов разницы стоимости, я в конечном итоге оптимизирую что-то в...

19
Может ли быть несколько локальных оптимальных решений, когда мы решаем линейную регрессию?

Я прочитал это утверждение на одном старом истинном / ложном экзамене: Мы можем получить несколько локальных оптимальных решений, если решим задачу линейной регрессии путем минимизации суммы квадратов ошибок с использованием градиентного спуска. Решение: Неверно У меня вопрос, какая часть этого...

12
Как применить метод итеративно переоцененных наименьших квадратов (IRLS) к модели LASSO?

Я запрограммировал логистическую регрессию, используя алгоритм IRLS . Я хотел бы применить штраф LASSO для автоматического выбора правильных функций. На каждой итерации решается следующее: (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} Пусть...

12
Является ли оптимизация PCA выпуклой?

Целевой функцией анализа главных компонентов (PCA) является минимизация ошибки восстановления в норме L2 (см. Раздел 2.12 здесь . Другое представление пытается максимизировать дисперсию проекции. У нас также есть отличная статья здесь: Какова целевая функция PCA ? ) Мой вопрос заключается в том,...