В неделю 3 - конспектов в классе Coursera Machine Learning Эндрю Нг , термин добавляется к функции стоимости реализации упорядочению:
В примечаниях к лекции говорится:
Мы также можем упорядочить все наши тэта-параметры в одном суммировании:
позже применяется к термину регуляризации нейронных сетей :
Напомним, что функция стоимости для упорядоченной логистической регрессии была:
Для нейронных сетей это будет немного сложнее:
- Почему постоянная половина используется здесь? Так что это отменяется в производной ?
- Почему деление на обучающих примеров? Как количество обучающих примеров влияет на вещи?
regularization
Том Хейл
источник
источник
Ответы:
Предположим, у вас есть 10 примеров, и вы не делите стоимость регуляризации L2 на количество примеров m . Тогда «доминирование» стоимости регуляризации L2 по сравнению со стоимостью кросс-энтропии будет равно 10: 1, потому что каждый пример обучения может вносить вклад в общую стоимость пропорционально 1 / m = 1/10.
Если у вас есть больше примеров, скажем, 100, то «доминирование» стоимости регуляризации L2 будет примерно равно 100: 1, поэтому вам нужно соответственно уменьшить λ , что неудобно. Лучше иметь постоянную λ независимо от размера партии.
Обновление: чтобы усилить этот аргумент, я создал блокнот Jupyter .
источник
Функция потерь в обучающем наборе как правило, представляет собой сумму по шаблонам, составляющим обучающий набор, поэтому, когда обучающий набор становится больше, первый член масштабируется по существу линейно с m . Мы можем сузить диапазон для поиска хорошего значения λ , если сначала разделим член регуляризации на m, чтобы компенсировать зависимость J ( θ ) от m . 2, конечно, действительно находится в знаменателе, чтобы упростить производные, необходимые для алгоритма оптимизации, используемого для определения оптимального θ .J(θ) m λ m J(θ) m θ
источник
Я задавался вопросом о том же самом, когда брал этот курс, и закончил тем, что исследовал это немного. Я дам короткий ответ здесь, но вы можете прочитать более подробный обзор в блоге, который я написал об этом .
Я полагаю, что, по крайней мере, одна из причин этих коэффициентов масштабирования заключается в том, что регуляризация L², вероятно, вошла в область глубокого обучения благодаря внедрению связанной, но не идентичной концепции снижения веса.
Затем существует коэффициент 0,5, чтобы получить хороший коэффициент только для λ для снижения веса в градиенте, и масштабирование по m ... ну, есть по крайней мере 5 различных мотиваций, которые я нашел или придумал:
grez
демонстрирует, что это повышает производительность на практике.источник
Я также был смущен этим, но потом в лекции для глубокого обучения. Эндрю предполагает, что это всего лишь константа масштабирования:
http://www.youtube.com/watch?v=6g0t3Phly2M&t=2m50s
Возможно, есть более глубокая причина для использования 1 / 2m, но я подозреваю, что это просто гиперпараметр.
источник