Какова целевая функция PCA?

42

Анализ основных компонентов может использовать матричную декомпозицию, но это всего лишь инструмент для достижения этой цели.

Как бы вы нашли главные компоненты без использования матричной алгебры?

Какова целевая функция (цель) и каковы ограничения?

Нил Макгиган
источник
1
Может быть, я что-то упускаю, поэтому, пожалуйста, поправьте меня, если я ошибаюсь, но должна быть возможность (по крайней мере, в принципе) построить то, что делается в PCA, используя матрицы как (сложную) задачу линейного программирования, но я не знаю, как бы вы заявили все необходимые ограничения. Также я не уверен, что это будет очень просто сделать по сравнению с использованием PCA. Почему вы пытаетесь избежать матриц?
Крис Симокат
@ Крис Я не понимаю, как можно решить проблему линейного программирования. Я также не понимал, что в вычислениях следует избегать матриц . Вопрос заключался в том, какую проблему решает PCA, а не как это делается (например, путем вычисления SVD). Решение от кардинала говорит, что вы находите последовательные ортогональные направления максимальной дисперсии . Представленное мной решение говорит о том, что вы найдете гиперплоскости с минимальной ошибкой восстановления.
NRH
@Xris Я надеюсь найти другой способ просмотра PCA без матричной алгебры, чтобы расширить мое понимание этого.
Нил Макгиган
1
@Chris, у вас есть квадратичная целевая функция и ограничение равенства норм 2 . Кроме того, согласно формулировке в ответе @ NRH, у вас есть ограничение на ранг матрицы. Это не приведет к проблеме линейного программирования. @NRH дает некоторую хорошую интуицию, и, на самом деле, существует очень тесная связь между этими двумя взглядами на PCA, которые были даны. Возможно, в сотрудничестве с @NRH, мы можем добавить это к его / ее посту, чтобы сделать полный набор ответов более полным.
кардинал
1
@NRH, На самом деле, мне очень нравится ESL , но я думаю, что обработка этой темы довольно поверхностна, как и для многих тем в книге. В частности, они не доказывают (или даже не назначают в качестве упражнения) важную часть решения поставленной вами задачи оптимизации.
кардинал

Ответы:

41

Не пытаясь дать полное представление о PCA, с точки зрения оптимизации, основной целевой функцией является коэффициент Рэлея . Матрица, которая фигурирует в частном, является (несколько кратной) выборочной ковариационной матрицей , где каждый представляет собой вектор функций и является матрицей , так что й строки является .

S=1ni=1nxixiT=XTX/n
xipXixiT

PCA стремится решить ряд задач по оптимизации. Первой в последовательности является проблема без ограничений

maximizeuTSuuTu,uRp.

Так какуказанная выше безусловная проблема эквивалентна ограниченной задаче uTu=u22=uu

maximizeuTSusubject touTu=1.

Вот где вступает матричная алгебра. Поскольку - симметричная положительная полуопределенная матрица (по построению!), Она имеет разложение по собственным значениям вида где - это ортогональная матрица (поэтому ) и - диагональная матрица с неотрицательными элементами такими что .S

S=QΛQT,
QQQT=IΛλiλ1λ2λp0

Следовательно, . Поскольку ограничено в задаче одной единицей, то так же, как и , поскольку ортогонально.uTSu=uTQΛQTu=wTΛw=i=1pλiwi2uww2=QTu2=u2=1Q

Но если мы хотим максимизировать количество при ограничениях, которые , то лучшее, что мы можем сделать, это set , то есть и для .i=1pλiwi2i=1pwi2=1w=e1w1=1wi=0i>1

Теперь, возвращаясь к соответствующему , что мы и искали, мы получаем где обозначает первый столбец , то есть собственный вектор , соответствующий наибольшего собственного значения . Значение целевой функции также легко увидеть как .u

u=Qe1=q1
q1QSλ1

Остальные векторы главных компонентов затем находят путем решения последовательности (индексируемой ) задач оптимизации Итак, проблема та же, за исключением того, что мы добавили дополнительное ограничение, согласно которому решение должно быть ортогональным ко всем предыдущим решениям в последовательности. Это не трудно расширить аргумент выше индуктивно , чтобы показать , что решение - го проблема, на самом деле, , тем й собственный вектор .i

maximizeuiTSuisubject touiTui=1uiTuj=01j<i.
iqiiS

Решение PCA также часто выражается через разложение по сингулярным числам . Чтобы понять , почему, пусть . Тогда и так (строго говоря, с точностью до знака сальто) и .XX=UDVTnS=XTX=VD2VTV=QΛ=D2/n

Главные компоненты находят, проецируя на векторы главных компонент. Из приведенной выше формулировки SVD легко увидеть, что X

XQ=XV=UDVTV=UD.

Простота представления как главных компонентных векторов, так и самих основных компонентов в терминах SVD матрицы признаков является одной из причин, по которым SVD проявляется так заметно в некоторых вариантах лечения PCA.

кардинальный
источник
Если нужны только первые несколько единичных значений / векторов, Нэш и Шлиен дают алгоритм, напоминающий обычный метод степеней для вычисления доминирующих собственных значений. Это может представлять интерес для ОП.
JM не является статистиком
@NRH, Спасибо, что поймали (и исправили) мои опечатки, прежде чем мне удалось их увидеть!
кардинал
1
Привет, @cardinal, спасибо за ответ. Но, похоже, вы не дали шаг, чтобы доказать, почему последовательная оптимизация приводит к глобальному оптимуму. Не могли бы вы уточнить это? Благодарность!
Лифу Хуан
21

Представленное кардиналом решение фокусируется на выборочной ковариационной матрице. Другой отправной точкой является ошибка восстановления данных по q- мерной гиперплоскости. Если p- мерными точками данных являются задача состоит в том, чтобы решитьx1,,xn

minμ,λ1,,λn,Vqi=1n||xiμVqλi||2

для матрицы с ортонормированными столбцами и . Это дает наилучшую ранговую q- реконструкцию, измеренную евклидовой нормой, а столбцы решения являются первыми векторами q главных компонент.p×qVqλiRqVq

Для фиксированного решения для и (это регрессия): Vqμλi

μ=x¯=1ni=1nxiλi=VqT(xix¯)

Для простоты обозначений предположим, что были центрированы в следующих вычислениях. Затем мы должны минимизировать xi

i=1n||xiVqVqTxi||2

более с ортонормированными столбцами. Обратите внимание, что является проекцией на q- мерное пространство столбцов. Следовательно, задача эквивалентна минимизации над рангом Q проекций . То есть нам нужно максимизировать по проекциям ранга q , где - выборочная ковариационная матрица. В настоящее времяVqP=VqVqT

i=1n||xiPxi||2=i=1n||xi||2i=1n||Pxi||2
P
i=1n||Pxi||2=i=1nxiTPxi=tr(Pi=1nxixiT)=ntr(PS)
PS
tr(PS)=tr(VqTSVq)=i=1quiTSui
где - (ортонормированные) в , а аргументы, представленные в ответе @ cardinal, показывают, что максимум получается при взятии ' s быть собственными векторами для с самыми большими собственными значениями.u1,,uqqVquiqSq

Ошибка реконструкции предполагает ряд полезных обобщений, например разреженных главных компонентов или реконструкций по низкоразмерным многообразиям вместо гиперплоскостей. Подробности см. В разделе 14.5 «Элементы статистического обучения» .

NRH
источник
(+1) Хорошие очки. Некоторые предложения: Было бы хорошо , чтобы определить и было бы очень хорошо , чтобы дать короткое доказательство результата. Или, в качестве альтернативы, это может быть связано с задачей оптимизации, связанной с коэффициентами Рэлея. Я думаю, что это сделало бы ответы на этот вопрос очень полными! λi
кардинал
@cardinal, я думаю, что я выполнил недостающие шаги в переходе от формулировки реконструкции к решаемой вами проблеме.
NRH
Хорошо сделано. Я считаю, что единственный оставшийся пробел в вашем последнем заявлении. Не сразу очевидно, что оптимизация суммы такая же, как выполнение последовательности оптимизаций в моем ответе. На самом деле, я не думаю, что это следует непосредственно, в общем. Но это не должно быть решено и здесь.
кардинал
@ Cardinal, это следует по индукции. Вы предоставляете начало индукции и на шаге индукции выбираете ортонормированные векторы которые максимизируют сумму, и расположите ее так, чтобы был единичным вектором, ортогональным к . Тогда по вашим результатам и по предположению индукции . Конечно, база не является уникальной базой для мерного пространства. Вы также можете обобщить «аргумент выпуклой комбинации», который вы используете для прямого доказательства. w1,,wqwqu1,,uq1wqTSwquqTSuqi=1q1wiTSwii=1q1uiTSuiq
NRH
1
@cardinal, я не заставляю вложения, просто использую измерение. Если у нас есть мерное подпространство, вы всегда можете выбрать в этом пространстве так, чтобы оно было ортогонально -мерному подпространству. Затем вы заполняете base так, как вам нравится. qwq(q1)w
NRH
4

См. NIPALS ( wiki ) для одного алгоритма, который явно не использует матричную декомпозицию. Я полагаю, это то, что вы имеете в виду, когда говорите, что хотите избежать матричной алгебры, поскольку вы действительно не можете избежать матричной алгебры здесь :)

JMS
источник