В последнее время я видел много статей о разреженных представлениях, и большинство из них используют норму и выполняют некоторую минимизацию. Мой вопрос: что норма и смешанная норма? И как они имеют отношение к регуляризации?ℓ p ℓ p , q
благодаря
В последнее время я видел много статей о разреженных представлениях, и большинство из них используют норму и выполняют некоторую минимизацию. Мой вопрос: что норма и смешанная норма? И как они имеют отношение к регуляризации?ℓ p ℓ p , q
благодаря
Нормы - это функции, которые принимают векторы и возвращают неотрицательные числа. Они определены как В случае, когда p = 2 , это называется евклидовой нормой. Вы можете определить евклидово расстояние как \ | \ vec x - \ vec y \ | _2 . Когда p = \ infty , это просто означает \ | \ vec x \ | _ \ infty = \ sup_i x_i (или \ max_i x_i ). Строго говоря, p должно быть хотя бы одним, чтобы \ | \ vec x \ | _p было нормой . Если 0 <p <1 , то \ | \ vec x \ | _p р = 2
(Существуют также нормы , которые определяются аналогично, за исключением функций вместо векторов или последовательностей - на самом деле это одно и то же, поскольку векторы являются функциями с конечными областями.)
Я не знаю о каком-либо использовании нормы в приложении машинного обучения, где , кроме случаев, когда . Обычно вы видите или , а иногда где вы хотите ослабить случай ; не является строго выпуклым в , но есть для . Это может сделать поиск решения «легче» в определенных случаях.p = ∞ p = 2 p = 1 1 < p < 2 p = 1 ‖ → x ‖ 1 → x ‖ → x ‖ p 1 < p < ∞
В контексте регуляризации, если вы добавите к своей целевой функции, вы скажете, что ожидаете, что будет разреженным , то есть в основном состоит из нулей. Это немного технически, но в основном, если есть плотное решение, вероятно, есть более редкое решение с той же нормой. Если вы ожидаете, что ваше решение будет плотным, вы можете добавить к своей цели, потому что тогда намного проще работать с его производной. Оба служат для предотвращения слишком большого веса раствора.→ x ‖ → x ‖ 2 2
Смешанная норма возникает, когда вы пытаетесь объединить несколько источников. По сути, вы хотите, чтобы вектор решения состоял из нескольких частей , где - индекс некоторого источника. норма только -норм все -норм собран в векторе. То естьjℓp,qqp‖ → x ‖p,q=( m ∑ j = 1 ( d ∑ i = 1 | x j i | p ) q / p)1/q
Цель этого состоит не в том, чтобы «перерасширить» набор решений, скажем, с помощью . Отдельные фрагменты редки, но вы не рискуете обнулить целый вектор решения, взяв норму всех решений. Так что вместо этого вы используете норму снаружи. 1 2
Надеюсь, это поможет.
Смотрите эту статью для более подробной информации.