Целевая функция PCA: какова связь между максимизацией дисперсии и минимизацией ошибки?

32

Алгоритм PCA может быть сформулирован в терминах корреляционной матрицы (предположим, что данные уже нормализованы, и мы рассматриваем только проекцию на первый ПК). Целевая функция может быть записана как:X

maxw(Xw)T(Xw)s.t.wTw=1.

Это хорошо, и мы используем множители Лагранжа, чтобы решить это, то есть переписать это как:

maxw[(Xw)T(Xw)λwTw],

что эквивалентно

maxw(Xw)T(Xw)wTw,

и, следовательно, ( см. здесь, в Mathworld ) кажется равным

maxwi=1n(distance from point xi to line w)2.

Но это говорит о том, чтобы максимизировать расстояние между точкой и линией, и из того, что я прочитал здесь , это неверно - оно должно быть min , а не max . Где моя ошибка?

Или кто-то может показать мне связь между максимизацией дисперсии в проецируемом пространстве и минимизацией расстояния между точкой и линией?

Cam.Davidson.Pilon
источник
Я думаю, что минимальное расстояние используется для соответствия критерию ортогональности для компонентов. Точки проецируются на ПК, которые ортогональны друг другу, но в каждом последующем компоненте оставшаяся дисперсия максимизируется.
Майкл Р. Черник,
Подсказка: что происходит, когда вы сначала рассматриваете наименьшее собственное значение, а не наибольшее?
whuber
@whuber Наименьшее собственное значение, вероятно, имеет ПК, который является решением для конечной целевой функции. Но этот ПК не максимизирует исходную целевую функцию.
Cam.Davidson.Pilon
2
Я не уверен, что вы подразумеваете под «конечной» и «оригинальной» целевой функцией, Кэм. PCA не является (концептуально) программой оптимизации. Его вывод представляет собой набор основных направлений, а не только одно. Это (интересная) математическая теорема, что эти направления могут быть найдены путем решения последовательности квадратичных программ с ограничениями, но это не является основным для концепций или практики PCA. Я только предполагаю, что, сосредоточившись на наименьшем собственном значении, а не на самом большом, вы можете согласовать две идеи: (1) минимизации расстояний и (2) взгляда на оптимизацию PCA.
whuber
1
Это нормально - ваш ответ был версией, не ошибкой того, что я пытался сделать.
Cam.Davidson.Pilon

Ответы:

42

Пусть - центрированная матрица данных с наблюдениями в строках. Пусть - его ковариационная матрица. Пусть будет единичным вектором, задающим ось в пространстве переменных. Мы хотим, чтобы была первой главной осью.XnΣ=XX/(n1)ww

Согласно первому подходу первая главная ось максимизирует дисперсию проекции (дисперсия первой главной компоненты). Эта дисперсия определяется какXw

Var(Xw)=wXXw/(n1)=wΣw.

Согласно второму подходу первая главная ось минимизирует ошибку восстановления между и ее восстановлением , то есть сумму квадратов расстояний между исходными точками и их проекциями на . Квадрат ошибки восстановления задается как XXwww

XXww2=tr((XXww)(XXww))=tr((XXww)(XwwX))=tr(XX)2tr(XwwX)+tr(XwwwwX)=consttr(XwwX)=consttr(wXXw)=constconstwΣw.

Обратите внимание на знак минус перед основным членом. Из-за этого минимизация ошибки восстановления сводится к максимизации , что является дисперсией. Таким образом, минимизация ошибки восстановления эквивалентна максимизации дисперсии; обе формулировки дают одинаковые .wΣww

амеба говорит восстановить монику
источник
Что-то, что я заметил, не является ли выпуклой функцией (Что касается поскольку - это PSD? Почему мы пытаемся максимизировать его?wTΣwwΣ
Рой,
@amoeba Можете ли вы объяснить, как вы переходите от tr () к const на последнем шаге?
Альберто
1
@alberto Внутри трассы находится число (матрица 1x1); след числа - это само число, поэтому след можно удалить. Эта константа появляется потому, что равна , поэтому существует коэффициент . ΣXX/n1/n
говорит амеба, восстанови Монику
1
@Leullame Вычисление будет содержать дословно для если это матрица с ортонормированными столбцами. Вам нужно чтобы перейти от строки № 3 к строке № 4. Если матрица имеет ортонормированные столбцы, то действительно будет проекцией на подпространство, натянутое на столбцы (здесь - вектор строки). WWW=IWxWWxWx
говорит амеба, восстанови Монику
1
@ DanielLópez Ну, мы ищем одномерное подпространство, минимизирующее ошибку реконструкции. 1-мерное подпространство может быть определено вектором единичной нормы, указывающим на его направление, которым является то, что принято считать . Он имеет единичную норму по конструкции. w
говорит амеба, восстанови Монику