Вопросы с тегом «optimization»

16
Почему «расслабленное лассо» отличается от стандартного лассо?

Если мы начнем с набора данных , применим к нему Лассо и получим решение , мы можем снова применить Лассо к набору данных , где - это набор ноль индексов , чтобы получить решение, , называемое «расслабленным решением LASSO» (поправьте меня, если я ошибаюсь!). Решение должно удовлетворять условиям...

16
Имеет ли логарифмическая вероятность в GLM гарантированную сходимость к глобальным максимумам?

Мои вопросы: Обязательно ли обобщенные линейные модели (GLM) сходятся к глобальному максимуму? Если так, то почему? Кроме того, какие ограничения существуют для функции связи для обеспечения выпуклости? Мое понимание GLM состоит в том, что они максимизируют крайне нелинейную функцию правдоподобия....

16
Значение предупреждения о сходимости в glmer

Я использую glmerфункцию из lme4пакета в R, и я использую bobyqaоптимизатор (т.е. по умолчанию в моем случае). Я получаю предупреждение, и мне любопытно, что это значит. Warning message: In optwrap(optimizer, devfun, start, rho$lower, control = control, : convergence code 3 from bobyqa: bobyqa -- a...

15
Почему максимизация ожидания важна для моделей смесей?

Существует много литературы, в которой подчеркивается, что метод максимизации ожиданий на моделях смесей (смесь гауссовской, скрытой марковской модели и т. Д.). Почему EM важен? EM - это просто способ оптимизации, который широко не используется в качестве метода, основанного на градиенте (метод...

15
Почему важно включить термин коррекции смещения для оптимизатора Adam для Deep Learning?

Я читал об оптимизаторе Адама для глубокого обучения и натолкнулся на следующее предложение в новой книге Бегнио, Гудфеллоу и Кортвилла « Глубокое обучение »: Адам включает поправки смещения к оценкам как моментов первого порядка (члена импульса), так и (нецентрированных) моментов второго порядка,...

15
Разъяснение о реализации правила перцептрона против градиентного спуска против стохастического градиентного спуска

Я немного поэкспериментировал с различными реализациями Perceptron и хочу убедиться, правильно ли я понимаю «итерации». Оригинальное правило персептрона Розенблатта Насколько я понимаю, в классическом алгоритме персептрона Розенблатта веса обновляются одновременно после каждого примера обучения...

15
Как стохастический градиентный спуск может сэкономить время по сравнению со стандартным градиентным спуском?

Стандартный градиентный спуск будет вычислять градиент для всего набора обучающих данных. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Для заранее определенного числа эпох мы сначала вычисляем вектор градиента...

15
Как CNN's избегают исчезающей проблемы градиента

Я много читал о сверточных нейронных сетях и удивлялся, как они избегают исчезающей проблемы градиента. Я знаю, что сети глубокого убеждения объединяют одноуровневые автокодеры или другие предварительно обученные мелкие сети и, таким образом, могут избежать этой проблемы, но я не знаю, как этого...

15
Разница в использовании нормализованного градиента и градиента

В общих настройках алгоритма градиентного спуска мы имеем где - текущая точка, - размер шага, а - градиент оценивается в . х п η г г д я е н т х п х пИксn + 1= хN- η∗ гр а дя е н тИксNxn+1=xn−η∗gradientxnx_{n+1} = x_{n} - \eta * gradient_{x_n}ИксNxnx_nηη\etaграммр а дя е н...

15
Почему я не могу сопоставить вывод glmer (family = binomial) с ручной реализацией алгоритма Гаусса-Ньютона?

Я хотел бы сравнить выходные данные lmer (действительно glmer) с примером игрушечного бинома. Я прочитал виньетки и, кажется, понимаю, что происходит. Но, видимо, я не. Застряв, я исправил «правду» в терминах случайных эффектов и пошел оценивать только фиксированные эффекты. Я включаю этот код...

15
Почему один ReLU не может выучить ReLU?

В качестве продолжения Моей нейронной сети не могу даже изучить евклидово расстояние, я упростил еще больше и попытался обучить один ReLU (со случайным весом) одному ReLU. Это самая простая сеть, которая существует, и все же половину времени она не может сходиться. Если исходное предположение имеет...

15
Оценка ARIMA от руки

Я пытаюсь понять, как оцениваются параметры в моделировании ARIMA / Box Jenkins (BJ). К сожалению, ни одна из книг, с которыми я столкнулся, подробно не описывает процедуру оценки, такую ​​как процедура оценки правдоподобия. Я нашел сайт / учебный материал, который был очень полезным. Ниже...

14
Перекрестная проверка и оптимизация параметров

У меня есть вопрос об оптимизации параметров, когда я использую 10-кратную перекрестную проверку. Я хочу спросить, должны ли параметры фиксироваться во время обучения модели каждого сгиба, т.е. (1) выбрать один набор оптимизированных параметров для средней точности каждого сгиба. или же (2) Я...

14
Ограниченная максимальная вероятность с менее чем полным рангом столбца

Этот вопрос касается оценки ограниченного максимального правдоподобия (REML) в конкретной версии линейной модели, а именно: Y= Х( α ) β+ ϵ ,ε ~ NN( 0 , Σ ( α ) ) ,Yзнак равноИкс(α)β+ε,ε~NN(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), где - ( ) матрица,...

14
Что такое минимизация энергии в машинном обучении?

Я читал об оптимизации для некорректной проблемы в компьютерном зрении и натолкнулся на объяснение ниже об оптимизации в Википедии. Я не понимаю, почему они называют эту оптимизацию « Минимизация энергии » в Computer Vision? Задача оптимизации может быть представлена ​​следующим образом: Дано:...

14
Оптимизация: корень зла в статистике?

Я слышал следующее выражение раньше: «Оптимизация - корень зла в статистике». Например, верхний ответ в этой теме делает это утверждение в связи с опасностью слишком агрессивной оптимизации во время выбора модели. Мой первый вопрос заключается в следующем: относится ли эта цитата к какому-либо...

14
Почему k-means не оптимизировано с использованием градиентного спуска?

Я знаю, что k-средних обычно оптимизируется с использованием максимизации ожиданий . Однако мы можем оптимизировать его функцию потерь так же, как мы оптимизируем любую другую! Я нашел несколько работ, которые на самом деле используют стохастический градиентный спуск для больших k-средних, но я не...

14
Ограниченная оптимизация библиотеки для ограничений равенства и неравенства

Любые рекомендации по выбору библиотеки оптимизации с ограничениями, подходящей для моей функции оптимизации? Я минимизирую ai) нелинейную функцию с линейным ограничением равенства и неравенства, и ii) имею доступный градиент и гессиан функции. Если это помогает, функция, которую я минимизирую, -...

14
Почему мы не используем непостоянную скорость обучения для градиента, приличного для вещей, отличных от нейронных сетей?

Глубокая учебная литература полна умных трюков с использованием непостоянных скоростей обучения при градиентном спуске. Такие вещи, как экспоненциальный распад, RMSprop, Adagrad и т. Д., Легко реализовать и они доступны в каждом пакете глубокого обучения, но, похоже, их не существует за пределами...