Какая норма ошибки восстановления минимизируется матрицей аппроксимации низкого ранга, полученной с помощью PCA?

26

Учитывая приближение PCA (или SVD) матрицы с матрицей , мы знаем , что является лучшим низкоразрядным приближением .XX^X^X

Это в соответствии с индуцированной нормой2 (т. Е. Самой большой нормой собственных значений) или в соответствии с нормой Фробениуса ?F

Donbeo
источник

Ответы:

30

Ответ одним словом: оба.


Начнем с определения норм. Для матрицы оператор 2 -норма определяется как X 2 = s u p X v 2X2и норма Фробениуса какXF=

X2=supXv2v2=max(si)
гдеsi- сингулярные значенияX, т.е. диагональные элементыSв разложении по сингулярным числамX=USV.
| |Икс| |Fзнак равноΣяJИксяJ2знак равноTр(ИксИкс)знак равноΣsя2,
sяИксSИксзнак равноUSВ

PCA задается тем же разложением сингулярных значений, когда данные центрированы. являются главными компонентами, V являются главными осями, то есть собственными векторами ковариационной матрицы, и восстановление X только с k главными компонентами, соответствующими k наибольшим сингулярным значениям, определяется как X k = U k S k V k .USВИксККИксКзнак равноUКSКВК

Теорема Эккарта-Юнга говорит, что - это матрица, минимизирующая норму ошибки восстановления X - A среди всех матриц A ранга k . Это верно как для нормы Фробениуса, так и для операторной 2- нормы . Как отметил @cardinal в комментариях, он был впервые доказан Шмидтом (из известности Грам-Шмидта) в 1907 году для случая Фробениуса. Позднее он был вновь открыт Экартом и Янгом в 1936 году и теперь в основном связан с их именами. Мирский обобщил теорему в 1958 г. на все нормы, инвариантные относительно унитарных преобразований, и это включает 2-норму оператора.ИксК| |Икс-A| |AК2

Эту теорему иногда называют теоремой Эккарта-Юнга-Мирского. Стюарт (1993) называет это теоремой приближения Шмидта. Я даже видел, как это называется теорема Шмидта-Эккарта-Юнга-Мирского.


Доказательство для оператора норма2

Пусть имеет полный ранг n . Поскольку A имеет ранг k , его нулевое пространство имеет n - k измерений. Пространство, охватываемое k + 1 правыми сингулярными векторами X, соответствующими наибольшим сингулярным значениям, имеет k + 1 размерность. Таким образом, эти два пространства должны пересекаться. Пусть w - единичный вектор от пересечения. Тогда мы получим: X - A 2 2( X - A ) w 2ИксNAКN-КК+1ИксК+1вестребовалось доказать.

| |Икс-A| |22| |(Икс-A)вес| |22знак равно| |Иксвес| |22знак равноΣязнак равно1К+1sя2(vявес)2sК+12знак равно| |Икс-ИксК| |22,

Доказательство для нормы Фробениуса

Мы хотим , чтобы найти матрицу ранг к минимизирующим | | X - 2 F . Мы можем разложить A = B W , где W имеет k ортонормированных столбцов. Минимизация Х - Б Ш 2 при фиксированном W является регрессионной проблемой с раствором B = Х W . Подключив его, мы видим, что теперь нам нужно минимизировать X - X W W AК| |Икс-A| |F2A=BWWkXBW2WB=XW где Е представляет ковариационная матрица X , то есть Е = Х Х / ( п - 1 ) . Это означаетчто ошибка восстановления сведенаминимуму, взявкачестве столбцов W некоторые к ортонормированным векторам максимизации общей дисперсии проекции.

XXWW2=X2XWW2=consttr(WWXXWW)=constconsttr(WΣW),
ΣXΣ=XX/(n1)Wk

kX=USVΣ=VS2V/(n1)=VΛVR=VW

tr(WΣW)=tr(RΛR)=iλijRij2i=1kλk,
W=VК

Смотрите следующие три связанных темы:


Более ранняя попытка доказательства нормы Фробениуса

Это доказательство я нашел где-то в Интернете, но оно неверно (содержит пробел), как объясняет @cardinal в комментариях.

| |Икс-A| |Fзнак равно| |USВ-A| |знак равно| |S-UAВ| |знак равно| |S-В| |,
Взнак равноUAВ
| |Икс-A| |Fзнак равноΣяJ(SяJ-ВяJ)2знак равноΣя(sя-Вяя)2+ΣяJВяJ2,
ВККsя ВопTямaLзнак равноSКAопTямaLзнак равноUКSКВК
амеба говорит восстановить монику
источник
2
Доказательство в случае нормы Фробениуса не является правильным (или, по крайней мере, полным), так как приведенный здесь аргумент не исключает возможности того, что матрица того же ранга могла бы исключить некоторые другие диагональные члены, в то же время имея «малое» отклонение. диагоналей. Чтобы более четко увидеть разрыв, отметьте, что удержание диагоналей постоянным и «обнуление» недиагоналей часто может повысить ранг рассматриваемой матрицы!
кардинал
1
Отметим также, что СВД было известно Бельтрами (по крайней мере, в довольно общем, хотя и частном случае) и Джордану еще в 1874 году.
Кардинал
ВS вместо того К наибольшие из них и имеет несколько ненулевых недиагональных членов, а затем обе суммы, Σя(sя-Вяя)2 а также ΣяJВяJ2, собираемся увеличить. Так что это только увеличит ошибку реконструкции. Нет? Тем не менее, я попытался найти другое доказательство для нормы Фробениуса в литературе, и прочитал, что это должно как-то легко следовать из случая нормы оператора. Но до сих пор я не понимаю, как это должно следовать ...
амеба говорит восстановить монику
3
Я делать , как GW Stewart (1993), О ранней истории сингулярного разложения, SIAM Review , Vol. 35, нет 4, 551-566 и, учитывая ваш предыдущий проявленный интерес к историческим вопросам, я думаю, что вы тоже. К сожалению, я думаю, что Стюарт непреднамеренно чрезмерно пренебрегает элегантностью доказательства Шмидта 1907 года. В нем скрыта регрессионная интерпретация, которую Стюарт упускает из виду и которая действительно довольно симпатична. Есть еще одно доказательство, которое следует первоначальному подходу диагонализации, который вы используете, но который требует дополнительной работы, чтобы заполнить этот пробел. (продолжение) .
кардинал
2
@cardinal: Да, вы правы, теперь я тоже вижу разрыв. Большое спасибо за статью Стюарта, это было очень интересное чтение. Я вижу, что Стюарт представляет доказательства Шмидта и Вейля, но оба они выглядят более сложными, чем то, что я хотел бы скопировать здесь (и до сих пор у меня не было времени тщательно их изучить). Я удивлен: я ожидал, что это будет очень простой результат, но, похоже, он менее тривиален, чем я думал. В частности, я бы не ожидал, что случай Фробениуса намного сложнее, чем оператор норма. Я буду редактировать пост сейчас. С Новым Годом!
говорит амеба: восстанови Монику