Вопросы с тегом «optimization»

16

В чем разница между оценкой максимального правдоподобия и градиентным спуском?

Каковы преимущества и недостатки обоих

16

Почему «расслабленное лассо» отличается от стандартного лассо?

Если мы начнем с набора данных , применим к нему Лассо и получим решение , мы можем снова применить Лассо к набору данных , где - это набор ноль индексов , чтобы получить решение, , называемое «расслабленным решением LASSO» (поправьте меня, если я ошибаюсь!). Решение должно удовлетворять условиям...

regression optimization lasso regularization shrinkage

16

Имеет ли логарифмическая вероятность в GLM гарантированную сходимость к глобальным максимумам?

Мои вопросы: Обязательно ли обобщенные линейные модели (GLM) сходятся к глобальному максимуму? Если так, то почему? Кроме того, какие ограничения существуют для функции связи для обеспечения выпуклости? Мое понимание GLM состоит в том, что они максимизируют крайне нелинейную функцию правдоподобия....

generalized-linear-model optimization convergence exponential-family

16

Значение предупреждения о сходимости в glmer

Я использую glmerфункцию из lme4пакета в R, и я использую bobyqaоптимизатор (т.е. по умолчанию в моем случае). Я получаю предупреждение, и мне любопытно, что это значит. Warning message: In optwrap(optimizer, devfun, start, rho$lower, control = control, : convergence code 3 from bobyqa: bobyqa -- a...

r optimization lme4-nlme convergence glmm

15

Почему максимизация ожидания важна для моделей смесей?

Существует много литературы, в которой подчеркивается, что метод максимизации ожиданий на моделях смесей (смесь гауссовской, скрытой марковской модели и т. Д.). Почему EM важен? EM - это просто способ оптимизации, который широко не используется в качестве метода, основанного на градиенте (метод...

machine-learning optimization expectation-maximization gaussian-mixture

15

Почему важно включить термин коррекции смещения для оптимизатора Adam для Deep Learning?

Я читал об оптимизаторе Адама для глубокого обучения и натолкнулся на следующее предложение в новой книге Бегнио, Гудфеллоу и Кортвилла « Глубокое обучение »: Адам включает поправки смещения к оценкам как моментов первого порядка (члена импульса), так и (нецентрированных) моментов второго порядка,...

machine-learning neural-networks optimization conv-neural-network adam

15

Разъяснение о реализации правила перцептрона против градиентного спуска против стохастического градиентного спуска

Я немного поэкспериментировал с различными реализациями Perceptron и хочу убедиться, правильно ли я понимаю «итерации». Оригинальное правило персептрона Розенблатта Насколько я понимаю, в классическом алгоритме персептрона Розенблатта веса обновляются одновременно после каждого примера обучения...

optimization gradient-descent perceptron

15

Как стохастический градиентный спуск может сэкономить время по сравнению со стандартным градиентным спуском?

Стандартный градиентный спуск будет вычислять градиент для всего набора обучающих данных. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Для заранее определенного числа эпох мы сначала вычисляем вектор градиента...

machine-learning optimization gradient-descent computational-statistics sgd

15

Как CNN's избегают исчезающей проблемы градиента

Я много читал о сверточных нейронных сетях и удивлялся, как они избегают исчезающей проблемы градиента. Я знаю, что сети глубокого убеждения объединяют одноуровневые автокодеры или другие предварительно обученные мелкие сети и, таким образом, могут избежать этой проблемы, но я не знаю, как этого...

machine-learning optimization deep-learning gradient-descent

15

Разница в использовании нормализованного градиента и градиента

В общих настройках алгоритма градиентного спуска мы имеем где - текущая точка, - размер шага, а - градиент оценивается в . х п η г г д я е н т х п х пИксn + 1= хN- η∗ гр а дя е н тИксNxn+1=xn−η∗gradientxnx_{n+1} = x_{n} - \eta * gradient_{x_n}ИксNxnx_nηη\etaграммр а дя е н...

algorithms optimization

15

Почему я не могу сопоставить вывод glmer (family = binomial) с ручной реализацией алгоритма Гаусса-Ньютона?

Я хотел бы сравнить выходные данные lmer (действительно glmer) с примером игрушечного бинома. Я прочитал виньетки и, кажется, понимаю, что происходит. Но, видимо, я не. Застряв, я исправил «правду» в терминах случайных эффектов и пошел оценивать только фиксированные эффекты. Я включаю этот код...

r mixed-model optimization lme4-nlme

15

Почему один ReLU не может выучить ReLU?

В качестве продолжения Моей нейронной сети не могу даже изучить евклидово расстояние, я упростил еще больше и попытался обучить один ReLU (со случайным весом) одному ReLU. Это самая простая сеть, которая существует, и все же половину времени она не может сходиться. Если исходное предположение имеет...

machine-learning neural-networks optimization keras

15

Оценка ARIMA от руки

Я пытаюсь понять, как оцениваются параметры в моделировании ARIMA / Box Jenkins (BJ). К сожалению, ни одна из книг, с которыми я столкнулся, подробно не описывает процедуру оценки, такую как процедура оценки правдоподобия. Я нашел сайт / учебный материал, который был очень полезным. Ниже...

time-series forecasting arima optimization box-jenkins

14

Перекрестная проверка и оптимизация параметров

У меня есть вопрос об оптимизации параметров, когда я использую 10-кратную перекрестную проверку. Я хочу спросить, должны ли параметры фиксироваться во время обучения модели каждого сгиба, т.е. (1) выбрать один набор оптимизированных параметров для средней точности каждого сгиба. или же (2) Я...

cross-validation optimization parameterization

14

Ограниченная максимальная вероятность с менее чем полным рангом столбца

Этот вопрос касается оценки ограниченного максимального правдоподобия (REML) в конкретной версии линейной модели, а именно: Y= Х( α ) β+ ϵ ,ε ~ NN( 0 , Σ ( α ) ) ,Yзнак равноИкс(α)β+ε,ε~NN(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), где - ( ) матрица,...

mixed-model maximum-likelihood linear-model optimization reml

14

Что такое минимизация энергии в машинном обучении?

Я читал об оптимизации для некорректной проблемы в компьютерном зрении и натолкнулся на объяснение ниже об оптимизации в Википедии. Я не понимаю, почему они называют эту оптимизацию « Минимизация энергии » в Computer Vision? Задача оптимизации может быть представлена следующим образом: Дано:...

machine-learning optimization computer-vision

14

Оптимизация: корень зла в статистике?

Я слышал следующее выражение раньше: «Оптимизация - корень зла в статистике». Например, верхний ответ в этой теме делает это утверждение в связи с опасностью слишком агрессивной оптимизации во время выбора модели. Мой первый вопрос заключается в следующем: относится ли эта цитата к какому-либо...

cross-validation optimization overfitting

14

Почему k-means не оптимизировано с использованием градиентного спуска?

Я знаю, что k-средних обычно оптимизируется с использованием максимизации ожиданий . Однако мы можем оптимизировать его функцию потерь так же, как мы оптимизируем любую другую! Я нашел несколько работ, которые на самом деле используют стохастический градиентный спуск для больших k-средних, но я не...

optimization k-means expectation-maximization loss-functions

14

Ограниченная оптимизация библиотеки для ограничений равенства и неравенства

Любые рекомендации по выбору библиотеки оптимизации с ограничениями, подходящей для моей функции оптимизации? Я минимизирую ai) нелинейную функцию с линейным ограничением равенства и неравенства, и ii) имею доступный градиент и гессиан функции. Если это помогает, функция, которую я минимизирую, -...

r optimization software

14

Почему мы не используем непостоянную скорость обучения для градиента, приличного для вещей, отличных от нейронных сетей?

Глубокая учебная литература полна умных трюков с использованием непостоянных скоростей обучения при градиентном спуске. Такие вещи, как экспоненциальный распад, RMSprop, Adagrad и т. Д., Легко реализовать и они доступны в каждом пакете глубокого обучения, но, похоже, их не существует за пределами...

machine-learning deep-learning optimization gradient-descent