Хорошо известно (например, в области измерения сжатия), что норма является «вызывающей разреженность» в том смысле, что если минимизировать функционал (для фиксированной матрицы и вектора ), для достаточно большого размера \ lambda> 0 , у многих вариантов A , \ vec {b} и \ lambda, вероятно, будет много точно нулевых записей в результирующем \ vec {x} .
Но если мы минимизируем при условии, что записи положительны и суммируются с , то термин не имеет никакого эффекта (потому что по указу). Существует ли аналогичный регуляризатор типа, который работает в этом случае для поощрения того, что результирующий является редким?
regression
matrix
normalization
regularization
sparse
Джастин Соломон
источник
источник
Ответы:
Общий метод создания разреженных решений - это оценка MAP с нормальным нулевым значением до неизвестной дисперсии.
Если вы затем назначите перед которого режим равен нулю, то задний режим обычно разреженный. вытекает из этого подхода, принимая экспоненциальное распределение смешивания.σ2i L1
Тогда вы получите
Некоторыми альтернативами являются обобщенный двойной парето, полу-коши, инвертированная бета. В некотором смысле они лучше, чем лассо, потому что они не уменьшают большие значения. На самом деле я уверен, что обобщенное двойное парето можно записать как смесь экспонент. То есть мы пишем а затем гамма-приоритет перед . Мы получили:λ=λi p(λi|αβ)
Обратите внимание, что я включил нормализующие константы, так как они помогают выбрать хорошие глобальные параметры. Теперь, если мы применим ограничение по дальности, у нас будет более сложная проблема, так как нам нужно перенормировать симплекс.
Еще одна общая особенность штрафов, вызывающих разреженность, заключается в том, что они не дифференцируемы в нуле. Обычно это происходит потому, что левый и правый пределы имеют противоположный знак.
Это основано на блестящей работе Николаса Полсона и Джеймса Скотта о представлениях средней дисперсии смеси, которые они используют для разработки TIRLS - массового расширения наименьших квадратов до очень большого класса комбинаций потерь и штрафов.
В качестве альтернативы вы можете использовать априор, который определен на симплексе, но имеет режимы в маргинальных распределениях в нуле. Одним из примеров является распределение Дирихле со всеми параметрами от 0 до 1. Предполагаемое наказание будет выглядеть так:
Где . Однако вы должны быть осторожны при численной оптимизации, так как штраф имеет особенности. Более надежный процесс оценки заключается в использовании апостериорного среднего. Хотя вы теряете точную разреженность, вы получите множество задних значений, близких к нулю.0<ai<1
источник
Два варианта:
источник
Суть вопроса только отчасти правильна. Хотя верно то, что норма является просто константой в ограничении, проблема оптимизации ограничения вполне может иметь разреженное решение.L1
Однако решение не зависит от выбора , поэтому либо существует разреженное решение, либо его нет. Другой вопрос, как на самом деле найти решение. Конечно, можно использовать стандартный квадратичный оптимизатор при линейных ограничениях, но популярные алгоритмы спуска по координатам нельзя использовать "из коробки".λ
Одно из предложений может состоять в том, чтобы оптимизировать только в условиях ограничения положительности, для разных , а затем перенормировать решение, чтобы оно имело норму 1. Алгоритм спуска по координатам должен, я считаю, быть легко модифицируемым для вычисления решения при положительности ограничение.λ L1
источник
Я могу придумать три метода.
Байесовский метод: введение предварительного распределения с нулевым средним и использование вероятности типа II для оценки параметров и гиперпараметров.
Вместо этого используйте качестве регуляризации. Это не дифференцируемо, хотя. Вы можете использовать норму высшего порядка, чтобы приблизить ее.∥⋅∥∞
Используйте .−∑i=1logxi
На самом деле, первый и третий методы одинаковы.
источник