Определение и сходимость итеративно переоцененных наименьших квадратов

16

Я использовал итеративно переоцененные наименьшие квадраты (IRLS), чтобы минимизировать функции следующей формы,

J(m)=i=1Nρ(|xim|)

где N - количество экземпляров xiR , mR - надежная оценка, которую я хочу, а ρ - подходящая робастная штрафная функция. Допустим, он выпуклый (хотя не обязательно строго) и на данный момент дифференцируемый. Хорошим примером такого ρ является функция потерь Хьюбера .

То, что я делал, это дифференцирование J(m) отношению к m (и манипулирование) для получения,

dJdm=i=1Nρ(|xim|)|xim|(xim)

и итеративно решения, установив его равным 0 и фиксации веса при итерации k к wi(k)=ρ(|xim(k)|)|xim(k)|(обратите внимание, что воспринимаемая особенность приxi=m(k)действительно является устраняемой сингулярностью во всехρо которых я мог бы беспокоиться). Тогда я получаю,

i=1Nwi(k)(xim(k+1))=0

и я решаю получить, .m(k+1)=i=1Nwi(k)xii=1Nwi(k)

Я повторяю этот алгоритм с фиксированной точкой до "сходимости". Отмечу, что если вы доберетесь до фиксированной точки, вы оптимальны, поскольку ваша производная равна 0 и это выпуклая функция.

У меня есть два вопроса об этой процедуре:

  1. Это стандартный алгоритм IRLS? После прочтения нескольких статей по этой теме (и они были очень разбросаны и расплывчаты в отношении того, что такое IRLS), это наиболее последовательное определение алгоритма, которое я могу найти. Я могу публиковать газеты, если люди хотят, но я на самом деле не хотел никого пристрастить. Конечно, вы можете обобщить эту базовую технику на многие другие типы проблем, связанных с вектором и аргументами, отличными от | x i - m ( k ) | Предоставление аргумента является нормой аффинной функции ваших параметров. Любая помощь или понимание было бы здорово в этом.xi|xim(k)|
  2. Конвергенция, кажется, работает на практике, но у меня есть несколько опасений по этому поводу. Я еще не видел доказательства этого. После нескольких простых симуляций Matlab я вижу, что одна итерация этого не является отображением сжатия (я сгенерировал два случайных экземпляра и вычислил | m 1 ( k + 1 ) - m 2 ( k + 1 ) |mи увидел, что это иногда больше, чем 1). Кроме того, отображение, определенное несколькими последовательными итерациями, не является строго сжатым отображением, но вероятность того, что константа Липшица будет больше 1, становится очень низкой. Так есть ли понятиевероятностного картографирования? Какой механизм я бы использовал, чтобы доказать, что это сходится? Это даже сходится?|m1(k+1)m2(k+1)||m1(k)m2(k)|

Любое руководство вообще полезно.

Редактировать: Мне нравится статья о IRLS для разреженного восстановления / обнаружения сжатия, написанная Daubechies et al. 2008 «Итеративно повторно взвешенный метод минимизации наименьших квадратов для разреженного восстановления» на arXiv. Но, похоже, основное внимание уделяется весам невыпуклых задач. Мой случай значительно проще.

Крис А.
источник
Глядя на вики-страницу IRWLS, я борюсь за разницу между процедурой, которую вы описываете, и IRWLS (они просто используют качестве их конкретнойфункции ρ ). Можете ли вы объяснить, чем, по вашему мнению, предлагаемый вами алгоритмотличаетсяот IRWLS? |yixxiββ|2ρ
user603
Я никогда не заявлял, что это было по-другому, и если я это подразумевал, я не хотел.
Крис А.

Ответы:

10

Что касается вашего первого вопроса, нужно определить «стандарт» или признать, что «каноническая модель» была постепенно создана. Как указано в комментарии, по крайней мере, кажется, что вы используете IRWLS довольно стандартно.

Что касается вашего второго вопроса, «сжатие по вероятности» может быть связано (хотя и неформально) с конвергенцией «рекурсивных стохастических алгоритмов». Из того, что я прочитал, есть огромная литература по этому вопросу, в основном в области машиностроения. В экономике мы используем его чуть-чуть, особенно основополагающие работы Леннарта Юнга - первой работой была Юнг (1977), в которой показано, что сходимость (или нет) рекурсивного стохастического алгоритма может определяться стабильностью (или нет) связанного обыкновенного дифференциального уравнения.

(то, что следует, было переработано после плодотворного обсуждения с ФП в комментариях)

конвергенция

Я буду использовать в качестве ссылки Сабер Элайди "Введение в разностные уравнения", 2005, 3-е изд. Анализ условно на некоторой выборке данных, так что рассматриваются как фиксированные. xs

Условие первого порядка для минимизации целевой функции, рассматривается как рекурсивная функция в , м ( к + 1 ) = N Σ я = 1 V я [ м ( K ) ] х я ,m

m(k+1)=i=1Nvi[m(k)]xi,vi[m(k)]wi[m(k)]i=1Nwi[m(k)][1]

имеет фиксированную точку (argmin целевой функции). По теореме 1.13 стр. 27-28 из Elaydi, если первая производная по от RHS из [ 1 ] , оцененная в неподвижной точке m , обозначим ее A ( m ) , меньше единицы по абсолютной величине , то м * является асимптотически устойчивым (AS). Более того, по теореме 4.3 с.179 мы имеем, что это также означает, что неподвижная точка равномерно AS (UAS). «Асимптотически устойчивый» означает, что для некоторого диапазона значений вокруг неподвижной точки существует окрестность ( m m[1]mA(m)m
, не обязательно небольшого размера, неподвижная точкапривлекательна, и поэтому, если алгоритм дает значения в этой окрестности, он будет сходиться. Свойство «равномерный» означает, что граница этой окрестности и, следовательно, ее размер не зависят от начального значения алгоритма. Фиксированная точка становитсяглобальноUAS, если γ = . Так что в нашем случае, если мы докажем, что(m±γ)γ=

|A(m)||i=1Nvi(m)mxi|<1[2]

xx¯

vi(m)m=wi(m)mi=1Nwi(m)wi(m)i=1Nwi(m)m(i=1Nwi(m))2

=1i=1Nwi(m)[wi(m)mvi(m)i=1Nwi(m)m]
Then

A(m)=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)i=1Nvi(m)xi]

=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)m]

and

|A(m)|<1|i=1Nwi(m)m(xim)|<|i=1Nwi(m)|[3]

we have

wi(m)m=ρ(|xim|)xim|xim||xim|+xim|xim|ρ(|xim|)|xim|2=xim|xim|3ρ(|xim|)ρ(|xim|)xim|xim|2=xim|xim|2[ρ(|xim|)|xim|ρ(|xim|)]=xim|xim|2[wi(m)ρ(|xim|)]

Inserting this into [3] we have

|i=1Nxim|xim|2[wi(m)ρ(|xim|)](xim)|<|i=1Nwi(m)|

|i=1Nwi(m)i=1Nρ(|xim|)|<|i=1Nwi(m)|[4]

This is the condition that must be satisfied for the fixed point to be UAS. Since in our case the penalty function is convex, the sums involved are positive. So condition [4] is equivalent to

i=1Nρ(|xim|)<2i=1Nwi(m)[5]

If ρ(|xim|) is Hubert's loss function, then we have a quadratic (q) and a linear (l) branch,

ρ(|xim|)={(1/2)|xim|2|xim|δδ(|xim|δ/2)|xim|>δ

and

ρ(|xim|)={|xim||xim|δδ|xim|>δ

ρ(|xim|)={1|xim|δ0|xim|>δ

{wi,q(m)=1|xim|δwi,l(m)=δ|xim|<1|xim|>δ

Since we do not know how many of the |xim|'s place us in the quadratic branch and how many in the linear, we decompose condition [5] as (Nq+Nl=N)

i=1Nqρq+i=1Nlρl<2[i=1Nqwi,q+i=1Nlwi,l]

Nq+0<2[Nq+i=1Nlwi,l]0<Nq+2i=1Nlwi,l

which holds. So for the Huber loss function the fixed point of the algorithm is uniformly asymptotically stable, irrespective of the x's. We note that the first derivative is smaller than unity in absolute value for any m, not just the fixed point.

What we should do now is either prove that the UAS property is also global, or that, if m(0)=x¯ then m(0) belongs to the neighborhood of attraction of m.

Alecos Papadopoulos
источник
Thanks for the response. Give me some time to analyze this answer.
Chris A.
Certainly. After all, the question waited 20 months.
Alecos Papadopoulos
Yeah, I was reminded of the problem and decided to put up a bounty. :)
Chris A.
Lucky me. I wasn't there 20 months ago - I would have taken up this question, bounty or not.
Alecos Papadopoulos
Thanks so much for this response. It's looking like, so far, that you've earned the bounty. BTW, your indexing on the derivative of vi w.r.t m is notationally weird. Couldn't the summations on the second line of this use another variable, such as j?
Chris A.