Вопросы с тегом «optimization»

В статистике это относится к выбору оценщика параметра путем максимизации или минимизации некоторой функции данных. Одним из очень распространенных примеров является выбор оценщика, который максимизирует совместную плотность (или функцию масс) наблюдаемых данных, называемую оценкой максимального правдоподобия (MLE).

85
Выбор скорости обучения

В настоящее время я работаю над внедрением Stochastic Gradient Descent, SGDдля нейронных сетей, использующих обратное распространение, и, хотя я понимаю его назначение, у меня есть несколько вопросов о том, как выбрать значения для скорости обучения. Связана ли скорость обучения с формой градиента...

28
Следует ли переподготовить модель, если появятся новые наблюдения?

Итак, я не смог найти никакой литературы по этому вопросу, но мне кажется, что стоит подумать: Каковы лучшие практики в обучении и оптимизации моделей, если доступны новые наблюдения? Есть ли способ определить период / частоту переобучения модели до того, как прогнозы начнут ухудшаться? Является ли...

21
Существуют ли правила выбора размера мини-партии?

При обучении нейронных сетей одним гиперпараметром является размер мини-пакета. Обычный выбор - 32, 64 и 128 элементов в каждой партии. Существуют ли какие-либо правила / рекомендации, какими большими должны быть мини-партии? Какие-нибудь публикации, которые исследуют влияние на...

21
Всегда ли градиентный спуск сходится к оптимальному?

Мне интересно, есть ли сценарий, при котором градиентный спуск не сходится к минимуму. Я осознаю, что градиентный спуск не всегда может привести к глобальному оптимуму. Я также знаю, что он может отличаться от оптимального, если, скажем, размер шага слишком велик. Тем не менее, мне кажется, что...

18
Руководство по выбору оптимизатора для обучения нейронных сетей

Я использую нейронные сети уже некоторое время. Тем не менее, одна вещь, с которой я постоянно борюсь, это выбор оптимизатора для обучения сети (используя backprop). Что я обычно делаю, так это просто начинаю с одного (например, стандартного SGD), а затем пробую другие другие довольно случайно. Мне...

18
локальные минимумы против седловых точек в глубоком обучении

Я слышал, как Эндрю Нг (в видео, которое я, к сожалению, больше не могу найти) рассказывал о том, как изменилось понимание локальных минимумов в задачах глубокого обучения в том смысле, что они теперь рассматриваются как менее проблемные, поскольку в многомерных пространствах (встречающихся в...

13
Сколько функций для выборки с использованием случайных лесов

На странице Википедии, которая цитирует «Элементы статистического обучения», написано: Как правило, для задачи классификации с функциями, ⌊ √ппp функции используются в каждом разделении.⌊ р-√⌋⌊п⌋\lfloor \sqrt{p}\rfloor Я понимаю, что это довольно обоснованное предположение, и оно, вероятно,...

13
Почему генетические алгоритмы не используются для оптимизации нейронных сетей?

Насколько я понимаю, генетические алгоритмы являются мощными инструментами для многоцелевой оптимизации. Кроме того, обучение нейронных сетей (особенно глубоких) является сложным и имеет много проблем (невыпуклые функции стоимости - локальные минимумы, исчезающие и взрывные градиенты и т. Д.)....

12
Почему бы не всегда использовать технику оптимизации ADAM?

Похоже, что оптимизатор адаптивной оценки моментов (Адам) почти всегда работает лучше (быстрее и надежнее, достигая глобального минимума) при минимизации функции стоимости в обучении нейронных сетей. Почему не всегда использовать Адама? Зачем вообще использовать RMSProp или оптимизаторы...

11
Fisher Scoring v / s Координатный спуск для MLE в R

Базовая функция R glm()использует баллы Фишера для MLE, в то время как, по- glmnetвидимому, используется метод спуска координат для решения того же уравнения. Спуск по координатам более эффективен по времени, чем оценка Фишера, так как оценка Фишера вычисляет производную матрицу второго порядка в...

10
Лучшие языки для научных вычислений [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое...

9
Почему скорость обучения приводит к стремительному росту веса моей нейронной сети?

Я использую tenorflow для написания простых нейронных сетей для небольшого количества исследований, и у меня было много проблем с весами 'nan' во время обучения. Я пробовал много разных решений, таких как смена оптимизатора, изменение потерь, размера данных и т. Д., Но безрезультатно. Наконец, я...