Вопросы с тегом «optimization»

14
Что такое минимизация энергии в машинном обучении?

Я читал об оптимизации для некорректной проблемы в компьютерном зрении и натолкнулся на объяснение ниже об оптимизации в Википедии. Я не понимаю, почему они называют эту оптимизацию « Минимизация энергии » в Computer Vision? Задача оптимизации может быть представлена ​​следующим образом: Дано:...

14
Ограниченная максимальная вероятность с менее чем полным рангом столбца

Этот вопрос касается оценки ограниченного максимального правдоподобия (REML) в конкретной версии линейной модели, а именно: Y= Х( α ) β+ ϵ ,ε ~ NN( 0 , Σ ( α ) ) ,Yзнак равноИкс(α)β+ε,ε~NN(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), где - ( ) матрица,...

13
Может кто-нибудь объяснить, пожалуйста, алгоритм обратного распространения? [Дубликат]

На этот вопрос уже есть ответы здесь : Алгоритм обратного распространения (2 ответа) Закрыто 3 месяца назад . Что такое алгоритм обратного распространения и как он...

13
Оптимизация и машинное обучение

Я хотел знать, сколько машинного обучения требует оптимизации. Из того, что я слышал, статистика - важная математическая тема для людей, работающих с машинным обучением. Точно так же, насколько важно для человека, работающего с машинным обучением, узнать о выпуклой или невыпуклой...

13
Почему на практике не используется алгоритм спуска «без седловых ньютонов»?

Недавно я прочитал статью Yann Dauphin et al. Выявление и устранение проблемы седловой точки в многомерной невыпуклой оптимизации , где они вводят интересный алгоритм спуска, называемый Ньютоном без седла , который, похоже, специально предназначен для оптимизации нейронной сети и не должен страдать...

13
Задача оптимизации

Мой друг продает kkk моделей блендеров. Некоторые из блендеров очень простые и дешевые, другие очень сложные и более дорогие. Его данные за каждый месяц состоят из цен каждого блендера (которые он устанавливает) и количества проданных единиц для каждой модели. Чтобы установить некоторые...

13
Если p> n, лассо выбирает не более n переменных

Одним из мотивов для эластичной сетки было следующее ограничение LASSO: В случае p>np>np > n лассо выбирает не более n переменных, прежде чем оно насыщается, из-за характера задачи выпуклой оптимизации. Кажется, это ограничивающая особенность метода выбора переменных. Более того, лассо не...

13
Философский вопрос о логистической регрессии: почему не обучено оптимальное пороговое значение?

Обычно в логистической регрессии мы подбираем модель и получаем некоторые прогнозы на тренировочном наборе. Затем мы проводим перекрестную проверку этих прогнозов обучения (что-то вроде этого ) и определяем оптимальное пороговое значение на основе чего-то вроде кривой ROC. Почему бы нам не включить...

13
Почему наивный байесовский классификатор оптимален для проигрыша 0-1?

Наивный байесовский классификатор - это классификатор, который назначает элементы xxx классу CCC на основе максимизации апостериорного P(C|x)P(C|x)P(C|x) для членства в классе и предполагает, что характеристики элементов независимы. Потеря 0-1 - это потеря, которая присваивает любой ошибочной...

13
Настройка гиперпараметра в регрессии Гаусса

Я пытаюсь настроить гиперпараметры алгоритма гауссовой регрессии, который я реализовал. Я просто хочу максимизировать предельное правдоподобие, определяемое формулой где K - ковариационная матрица с элементы K_ {ij} = k (x_i, x_j) = b ^ {- 1} \ exp (- \ frac {1} {2} (x_i-x_j) ^ TM (x_i-x_j)) + a ^...

13
Современное состояние совместной фильтрации

Я работаю над проектом для совместной фильтрации (CF), т.е. завершаю частично наблюдаемую матрицу или, в более общем случае, тензор. Я новичок в этой области, и для этого проекта, в конце концов, мне нужно сравнить наш метод с другими известными, которые в настоящее время сравнивают предложенные...

13
KKT в двух словах графически

Задача Подтвердите правильность понимания KKT или нет. Ищите дальнейшие объяснения и подтверждения на KKT. Фон Попытка понять условия KKT, особенно дополнительные, которые всегда всплывают в статьях SVM. Мне не нужен список абстрактных формул, но мне нужно конкретное, интуитивное и графическое...

12
Является ли оптимизация PCA выпуклой?

Целевой функцией анализа главных компонентов (PCA) является минимизация ошибки восстановления в норме L2 (см. Раздел 2.12 здесь . Другое представление пытается максимизировать дисперсию проекции. У нас также есть отличная статья здесь: Какова целевая функция PCA ? ) Мой вопрос заключается в том,...

12
Оптимизатор lme4 по умолчанию требует много итераций для многомерных данных

TL; DR: lme4оптимизация кажется линейной по количеству параметров модели по умолчанию и намного медленнее, чем эквивалентная glmмодель с фиктивными переменными для групп. Что я могу сделать, чтобы ускорить это? Я пытаюсь соответствовать довольно большой иерархической модели логита (~ 50 тыс. Строк,...

12
Какая связь между регуляризацией и методом множителей Лагранжа?

Чтобы не допустить перегрузки людей, люди добавляют термин регуляризации (пропорциональный квадрату суммы параметров модели) с параметром регуляризации к функции стоимости линейной регрессии. Является ли этот параметр таким же, как множитель Лагранжа? Так регуляризация такая же, как метод множителя...

12
RMSProp и Адам против SGD

Я выполняю эксперименты на валидации EMNIST, используя сети с RMSProp, Adam и SGD. Я достиг 87% точности с SGD (скорость обучения 0,1) и отсева (0,1 отсева), а также регуляризация L2 (1e-05 штраф). При тестировании точно такой же конфигурации с RMSProp и Adam, а также с начальной скоростью обучения...

12
Оптимизация машины опорных векторов с помощью квадратичного программирования

Я пытаюсь понять процесс обучения линейной поддержки векторной машины . Я понимаю, что свойства SMV позволяют оптимизировать их гораздо быстрее, чем с помощью решателя квадратичного программирования, но в целях обучения я хотел бы посмотреть, как это работает. Учебные данные set.seed(2015) df <-...