Вопросы с тегом «optimization»

12
Использовать коэффициент корреляции Пирсона в качестве цели оптимизации в машинном обучении

В машинном обучении (для проблем регрессии) я часто вижу среднеквадратическую ошибку (MSE) или среднюю абсолютную ошибку (MAE), используемую в качестве функции ошибки для минимизации (плюс термин регуляризации). Мне интересно, есть ли ситуации, когда использование коэффициента корреляции было бы...

12
Как решить наименьшее абсолютное отклонение симплекс-методом?

Вот проблема наименьшего абсолютного отклонения в данной области:, Я знаю, что это может быть перестроено как проблема LP следующим образом:argminwL(w)=∑ni=1|yi−wTx|arg⁡minwL(w)=∑i=1n|yi−wTx| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min∑ni=1uimin∑i=1nui\min...

12
Является ли оптимизация PCA выпуклой?

Целевой функцией анализа главных компонентов (PCA) является минимизация ошибки восстановления в норме L2 (см. Раздел 2.12 здесь . Другое представление пытается максимизировать дисперсию проекции. У нас также есть отличная статья здесь: Какова целевая функция PCA ? ) Мой вопрос заключается в том,...

12
RMSProp и Адам против SGD

Я выполняю эксперименты на валидации EMNIST, используя сети с RMSProp, Adam и SGD. Я достиг 87% точности с SGD (скорость обучения 0,1) и отсева (0,1 отсева), а также регуляризация L2 (1e-05 штраф). При тестировании точно такой же конфигурации с RMSProp и Adam, а также с начальной скоростью обучения...

11
Загадка парикмахера

Моя парикмахерская Стейси всегда выглядит счастливой, но ей часто не хватает времени. Сегодня Стейси была запоздалой на мое назначение и очень извинялась. Во время стрижки я подумала: как долго должны проходить ее стандартные встречи? (если предпочтение клиента на чистые круглые числа может быть...

11
Оптимальное биннинг по отношению к заданной переменной отклика

Я ищу оптимальный метод биннинга (дискретизации) непрерывной переменной по отношению к заданной ответной (целевой) двоичной переменной и с максимальным количеством интервалов в качестве параметра. пример: у меня есть набор наблюдений за людьми с переменными "высота" (цифра непрерывная) и...

11
Параметры максимального правдоподобия отклоняются от апостериорных распределений

У меня есть функция правдоподобия Л (д| θ)L(d|θ)\mathcal{L}(d | \theta) для вероятности моих данных учетом некоторых параметров модели , которые я хотел бы оценить. Принимая плоские априорные значения параметров, вероятность пропорциональна апостериорной вероятности. Я использую метод MCMC для...

11
Оптимизация стохастических компьютерных моделей

Это сложная тема для меня, потому что поиск слов «оптимизация» и «стохастик» в поиске почти автоматически приводит к поиску стохастической оптимизации. Но что я действительно хочу знать, так это то, какие методы существуют для оптимизации компьютерных моделей, когда выходные данные компьютерной...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

11
Показана эквивалентность между

По ссылкам Книга 1 , Книга 2 и бумага . Было упомянуто, что существует эквивалентность между регуляризованной регрессией (Ridge, LASSO и Elastic Net) и их формулами ограничения. Я также посмотрел на Cross Validated 1 и Cross Validated 2 , но я не вижу четкого ответа, демонстрирующего эту...

11
Является ли коэффициент ошибок выпуклой функцией лямбда-параметра регуляризации?

При выборе параметра регуляризации лямбда в Ridge или Lasso рекомендуется использовать разные значения лямбды, измерить ошибку в наборе валидации и, наконец, выбрать то значение лямбды, которое возвращает наименьшую ошибку. Мне не понятно, если функция f (лямбда) = error является выпуклой. Может ли...

11
Критерий остановки для Nelder Mead

Я пытаюсь реализовать алгоритм Nelder-Mead для оптимизации функции. Страница Википедии о Nelder-Mead удивительно ясна обо всем алгоритме, за исключением критерия его остановки. Там это печально говорит: Проверьте сходимость [требуется уточнение] . Я попробовал и протестировал пару критериев сам:...

10
MAP является решением

Я столкнулся с этими слайдами (слайд № 16 и № 17) на одном из онлайн-курсов. Преподаватель пытался объяснить, как максимальная апостериорная оценка (MAP) на самом деле является решением L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}] , где - истинный параметр.θ∗θ∗\theta^{*}...

10
Модель истории дискретного времени (выживания) в R

Я пытаюсь вписать модель с дискретным временем в R, но я не уверен, как это сделать. Я читал, что вы можете организовать зависимую переменную в разных строках, по одной для каждого временного наблюдения, и использовать glmфункцию со ссылкой logit или cloglog. В этом смысле, у меня есть три колонки:...

10
Почему рейтинговая система Elo использует неправильное правило обновления?

Система рейтинга Эло использует алгоритм минимизации градиентного спуска функции кросс-энтропийной потери между ожидаемой и наблюдаемой вероятностью исхода в парных сравнениях. Мы можем написать общие функции потерь как Е= - ∑н , япяГ о г( дя)E=−∑n,ipiLog(qi) E=-\sum_{n,i} p_i Log (q_i) где сумма...

10
Есть ли формула для s-образной кривой с доменом и диапазоном [0,1]

По сути, я хочу преобразовать показатели сходства в веса, которые используются в качестве предикторов. Сходства будут на [0,1], и я ограничу веса также на [0,1]. Мне бы хотелось, чтобы параметрическая функция выполняла это отображение, которое я, скорее всего, оптимизирую с помощью градиентного...

10
Как Tensorflow `tf.train.Optimizer` вычисляет градиенты?

Я следую учебнику по Mensist Tensorflow ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py ). Учебник использует tf.train.Optimizer.minimize(конкретно tf.train.GradientDescentOptimizer). Я не вижу каких-либо аргументов, передаваемых где-либо...

10
Как Лассо масштабируется с размером матрицы дизайна?

Если у меня есть проектная матрица , где - число наблюдений измерения , какова сложность решения для с LASSO, без и ? Я думаю, что ответ должен относиться к тому, как масштабируется одна итерация LASSO с этими параметрами, а не к тому, как масштабируется количество итераций (сходимость), если вы не...

10
LASSO отношения между

Мое понимание регрессии LASSO заключается в том, что коэффициенты регрессии выбираются для решения проблемы минимизации: minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t На практике это делается с использованием множителя Лагранжа, что...