Вопросы с тегом «optimization»

27
Могут ли степени свободы быть нецелым числом?

Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...

27
Почему меньшие веса приводят к упрощению моделей в регуляризации?

Я закончил курс по машинному обучению Эндрю Нг около года назад, и сейчас я пишу свои исследования по математике в старших классах по методам логистической регрессии и методам оптимизации производительности. Одним из таких методов является, конечно, регуляризация. Целью регуляризации является...

27
Каково влияние выбора различных функций потерь в классификации для приблизительной оценки 0-1?

Мы знаем, что некоторые объективные функции легче оптимизировать, а некоторые - сложные. И есть много функций потерь, которые мы хотим использовать, но трудно использовать, например, потеря 0-1. Таким образом, мы находим некоторые функции потери прокси для выполнения этой работы. Например, мы...

27
Зачем изучать выпуклую оптимизацию для теоретического машинного обучения?

Я работаю над теоретическим машинным обучением - по переводному обучению, если быть точным - для моего доктора философии. Из любопытства, почему я должен пройти курс по выпуклой оптимизации? Какие выводы из выпуклой оптимизации я могу использовать в своих исследованиях теоретического машинного...

27
Пошаговый пример автоматического дифференцирования в обратном режиме

Не уверен, принадлежит ли этот вопрос здесь, но он тесно связан с градиентными методами в оптимизации, которая, кажется, здесь уместна. В любом случае, не стесняйтесь мигрировать, если считаете, что какое-то другое сообщество обладает большим опытом в этой теме. Короче говоря, я ищу пошаговый...

26
Какие классические обозначения в статистике, линейной алгебре и машинном обучении? И какие связи между этими обозначениями?

Когда мы читаем книгу, понимание обозначений играет очень важную роль в понимании содержания. К сожалению, разные сообщества имеют разные условные обозначения для формулировки модели и задачи оптимизации. Может ли кто-нибудь суммировать некоторые обозначения формулировки здесь и указать возможные...

25
Для выпуклых задач всегда ли градиент в Стохастическом градиентном спуске (SGD) указывает на глобальное экстремальное значение?

Учитывая выпуклую функцию стоимости, используя SGD для оптимизации, мы будем иметь градиент (вектор) в определенной точке в процессе оптимизации. Мой вопрос, учитывая точку на выпуклом, градиент только указывает в направлении, в котором функция увеличивается / уменьшается быстрее всего, или...

24
Как определить условие завершения градиентного спуска?

На самом деле, я хотел спросить вас, как я могу определить условие завершения градиентного спуска. Могу ли я остановить его, основываясь на количестве итераций, т.е. учитывая значения параметров, скажем, для 100 итераций? Или мне следует подождать, чтобы различия в значениях двух параметров 'new' и...

24
Оценка максимального правдоподобия EM для распределения Вейбулла

Примечание: я отправляю вопрос от моего бывшего студента, который не может публиковать сообщения самостоятельно по техническим причинам. Для данного iid образца Икс1, … , ХNИкс1,...,ИксNx_1,\ldots,x_n из распределения Вейбулла pdf еК( х ) = к хк - 1е- хКх > 0еК(Икс)знак...

24
По какой причине Adam Optimizer считается устойчивым к значению своих гиперпараметров?

Я читал об оптимизаторе Адама для Deep Learning и натолкнулся на следующее предложение в новой книге « Deep Learning » Бенджо, Гудфеллоу и Курвилля: Адам, как правило, считается достаточно устойчивым к выбору гиперпараметров, хотя скорость обучения иногда необходимо изменить по сравнению с...

23
Координата против градиентного спуска

Мне было интересно, каковы разные варианты использования для двух алгоритмов, Coordinate Descent и Gradient Descent . Я знаю, что у координатного спуска есть проблемы с негладкими функциями, но он используется в популярных алгоритмах, таких как SVM и LASSO. Однако градиентный спуск, по-моему,...

23
Являются ли методы машинного обучения «алгоритмами приближения»?

Недавно возник вопрос, похожий на ML, касающийся обмена стека теорий, и я опубликовал ответ, рекомендующий метод Пауэлла, градиентный спуск, генетические алгоритмы или другие «алгоритмы приближения». В комментарии кто-то сказал мне, что эти методы являются «эвристикой», а не «алгоритмами...

23
Почему алгоритмы оптимизации определяются с точки зрения других задач оптимизации?

Я занимаюсь некоторыми методами оптимизации машинного обучения, но удивляюсь, обнаружив, что большое количество алгоритмов оптимизации определяется с точки зрения других задач оптимизации. Я проиллюстрирую некоторые примеры в следующем. Например, https://arxiv.org/pdf/1511.05133v1.pdf. Все выглядит...

23
Всегда ли есть максимизатор для любой проблемы MLE?

Интересно, всегда ли есть максимизатор для какой-либо задачи оценки максимального (логарифмического) правдоподобия? Другими словами, есть ли какое-то распределение и некоторые его параметры, для которых у проблемы MLE нет максимизатора? Мой вопрос исходит от утверждения инженера о том, что функция...

22
Почему функция стоимости нейронных сетей невыпуклая?

Здесь есть похожая тема ( функция стоимости нейронной сети невыпуклая? ), Но я не смог понять суть вопросов в ответах и ​​мою причину повторного запроса, надеясь, что это прояснит некоторые проблемы: Если я использую функцию суммы квадратов разницы стоимости, я в конечном итоге оптимизирую что-то в...

22
Как обеспечить свойства ковариационной матрицы при подборе многомерной нормальной модели с использованием максимального правдоподобия?

Предположим, у меня есть следующая модель Yя= ф( хя, θ ) + εяYязнак равное(Икся,θ)+εяy_i=f(x_i,\theta)+\varepsilon_i где , - вектор объясняющих переменных, - параметры нелинейной функции и , где естественно, матрица.Yя∈ RКYя∈рКy_i\in \mathbb{R}^KИксяИксяx_iθθ\thetaееfεя∼ N( 0 , Σ...

22
Почему максимальная вероятность, а не ожидаемая вероятность?

Почему так часто получают оценки максимального правдоподобия параметров, но вы практически никогда не слышали об ожидаемых оценках параметров правдоподобия (т. Е. На основе ожидаемого значения, а не режима функции правдоподобия)? Это в первую очередь по историческим причинам или по более предметным...

21
Как выбрать между алгоритмами обучения

Мне нужно реализовать программу, которая будет классифицировать записи на 2 категории (истина / ложь) на основе некоторых обучающих данных, и мне было интересно, какой алгоритм / методология мне следует рассмотреть. Кажется, из них есть из чего выбирать - искусственная нейронная сеть, генетический...

20
Что означает суперскрипт 2, индекс 2 в контексте норм?

Я новичок в оптимизации. Я продолжаю видеть уравнения, которые имеют верхний индекс 2 и нижний индекс 2 в правой части нормы. Например, вот уравнение наименьших квадратов мин| |A x - b | |22||Ax−b||22 ||Ax-b||^2_2 Я думаю, что понимаю верхний индекс 2: это означает возвести в квадрат значение...

20
В нейронных сетях зачем использовать градиентные методы, а не другие метаэвристики?

Почему в обучении глубоких и неглубоких нейронных сетей обычно используются градиентные методы (например, градиентный спуск, Нестеров, Ньютон-Рафсон), а не другие метаэвристики? Под метаэвристикой я подразумеваю такие методы, как имитация отжига, оптимизация колоний муравьев и т. Д., Которые были...