Вопросы с тегом «gradient-descent»

14
Функции стоимости для контекстных бандитов

Я использую vowpal wabbit для решения проблемы контекстуального бандита . Я показываю рекламу пользователям, и у меня есть достаточно информации о контексте, в котором показывается реклама (например, кто такой пользователь, на каком сайте он находится и т. Д.). Похоже, это довольно классическая...

13
Выбор подходящего размера мини-партии для стохастического градиентного спуска (SGD)

Есть ли литература, в которой рассматривается выбор размера мини-партии при выполнении стохастического градиентного спуска? По моему опыту, это, кажется, эмпирический выбор, обычно находящийся в перекрестной проверке или с использованием различных практических правил. Является ли хорошей идеей...

13
Почему градиентный спуск неэффективен для большого набора данных?

Допустим, наш набор данных содержит 1 миллион примеров, то есть , и мы хотим использовать градиентный спуск, чтобы выполнить логистическую или линейную регрессию для этого набора данных.Икс1, … , Х106x1,…,x106x_1, \ldots, x_{10^6} Что с методом градиентного спуска делает его неэффективным?...

13
Почему на практике не используется алгоритм спуска «без седловых ньютонов»?

Недавно я прочитал статью Yann Dauphin et al. Выявление и устранение проблемы седловой точки в многомерной невыпуклой оптимизации , где они вводят интересный алгоритм спуска, называемый Ньютоном без седла , который, похоже, специально предназначен для оптимизации нейронной сети и не должен страдать...

12
Градиент для функции логистической потери

Я хотел бы задать вопрос, связанный с этим . Я нашел пример написания пользовательской функции потерь для xgboost здесь : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain,...

12
Можно ли оценить GLM в Python / scikit-learn, используя распределения Пуассона, Гаммы или Твиди как семейство для распределения ошибок?

Пытаюсь выучить немного Python и Sklearn, но для своей работы мне нужно запустить регрессии, которые используют распределения ошибок из семейств Пуассона, Гаммы и особенно семейства Твиди. Я ничего не вижу в документации о них, но они есть в нескольких частях дистрибутива R, поэтому мне было...

12
Градиентный спуск не находит решения для обычных наименьших квадратов в этом наборе данных?

Я изучал линейную регрессию и попробовал ее на приведенном ниже множестве {(x, y)}, где x указал площадь дома в квадратных футах, а y - цену в долларах. Это первый пример в Andrew Ng Notes . 2104.400 1600.330 2400.369 1416.232 3000.540 Я разработал пример кода, но когда я его запускаю, стоимость...

12
Как мини-пакетный градиентный спуск обновляет веса для каждого примера в пакете?

Если мы обрабатываем, скажем, 10 примеров в пакете, я понимаю, что мы можем суммировать потери для каждого примера, но как работает обратное распространение в отношении обновления весов для каждого примера? Например: Пример 1 -> потеря = 2 Пример 2 -> потеря = -2 Это приводит к средней потере...

11
Когда использовать градиентный спуск против Монте-Карло в качестве метода численной оптимизации

Когда набор уравнений не может быть решен аналитически, тогда мы можем использовать алгоритм градиентного спуска. Но, похоже, существует также метод моделирования Монте-Карло, который можно использовать для решения задач, которые не имеют аналитических решений. Как определить, когда использовать...

11
Связаны ли остаточные сети с повышением градиента?

Недавно мы увидели появление остаточной нейронной сети, в которой каждый уровень состоит из вычислительного модуля и ярлыка соединения, которое сохраняет входные данные для уровня, такие как выходные данные i-го уровня: Сеть позволяет извлекать остаточные элементы и обеспечивает более глубокую...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

10
Как обучить SVM через обратное распространение?

Мне было интересно, можно ли обучить SVM (скажем, линейный, чтобы упростить задачу) с использованием обратного распространения? В настоящее время я нахожусь в затруднительном положении, потому что я могу думать только о том, чтобы записать вывод классификатора как...

10
Можно ли обучить модель P (Y | X) с помощью стохастического градиентного спуска из неидеальных выборок P (X) и iid выборок P (Y | X)?

При обучении параметризованной модели (например, для максимизации вероятности) посредством стохастического градиентного спуска на некотором наборе данных обычно предполагается, что обучающие выборки извлекаются из распределения обучающих данных. Таким образом, если цель состоит в том, чтобы...

9
Как повышение градиента, как градиентный спуск?

Я читаю полезную статью в Википедии о повышении градиента ( https://en.wikipedia.org/wiki/Gradient_boosting ) и пытаюсь понять, как / почему мы можем аппроксимировать невязки с помощью шага наискорейшего спуска (также называемого псевдоградиентом). ). Кто-нибудь может дать мне интуицию о том, как...

9
Почему проксимальный градиентный спуск вместо простых субградиентных методов для Лассо?

Я думал решить Лассо с помощью ванильных субградиентных методов. Но я читал людей, предлагающих использовать проксимальный градиентный спуск. Может ли кто-нибудь подчеркнуть, почему для лассо используются проксимальный GD вместо ванильных субградиентных...

9
Почему мои шаги становятся меньше при использовании фиксированного размера шага при градиентном спуске?

Предположим, что мы делаем игрушечный пример с градиентом приличия, минимизируя квадратичную функцию , используя фиксированный размер шага α = 0,03 . ( A = [ 10 , 2 ; 2 , 3 ] )ИксTхxTAxx^TAxα = 0,03α=0.03\alpha=0.03A = [ 10 , 2 ; 2 , 3 ]A=[10,2;2,3]A=[10, 2; 2, 3] Если мы построим трассировку на...

9
Определить оптимальную скорость обучения для градиентного спуска в линейной регрессии

Как определить оптимальную скорость обучения для градиентного спуска? Я думаю, что я мог бы автоматически настроить его, если функция стоимости возвращает большее значение, чем в предыдущей итерации (алгоритм не будет сходиться), но я не совсем уверен, какое новое значение он должен...

9
Оптимизация градиентного спуска

Я пытаюсь понять оптимизацию градиентного спуска в алгоритмах ML (машинного обучения). Я понимаю , что есть стоимость функция, где цель состоит в том, чтобы свести к минимуму ошибки у - у . В случае , когда вес ш 1 , ж 2 оптимизируются , чтобы дать минимальную ошибку, и используются в частных...