Анализ главных компонент (PCA) обычно объясняется с помощью собственного разложения ковариационной матрицы. Тем не менее, он также может быть выполнен с помощью сингулярного разложения (SVD) матриц данных . Как это работает? Какова связь между этими двумя подходами? Какая связь между СВД и СПС?
Или, другими словами, как использовать SVD матрицы данных для уменьшения размерности?
Ответы:
Пусть матрица данных имеет размер n × p , где n - количество выборок, а p - количество переменных. Предположим, что он центрирован , то есть средние значения столбцов вычтены и теперь равны нулю.X n×p n p
Тогда ковариационная матрица C задается как C = X ⊤ X / ( n - 1 ) . Это симметричная матрица, поэтому она может быть диагонализирована: C = V L V ⊤ , где V - матрица собственных векторов (каждый столбец - собственный вектор), а L - диагональная матрица с собственными значениями λ i в порядке убывания на диагонали. , Собственные векторы называются главными осями или главными направлениями.p×p C C=X⊤X/(n−1)
Если мы теперь выполним разложение сингулярным значениям , мы получим разложение X = U S V ⊤ , где U - унитарная матрица, а S - диагональная матрица особых значений s i . Отсюда легко увидеть, что C = V S U ⊤ U S V ⊤ / ( n - 1 ) = V S 2Икс
Обобщить:
Дальнейшие ссылки
Что такое интуитивные отношения между SVD и PCA - очень популярной и очень похожей веткой по математике.
Почему PCA данных с помощью SVD данных? - обсуждение преимуществ использования PCA с помощью SVD [короткий ответ: численная стабильность].
PCA и анализ соответствия в их отношении к Biplot - PCA в контексте некоторых родственных методов, основанных на SVD.
Есть ли какое-либо преимущество SVD перед PCA? - вопрос, спрашивающий, есть ли какие-либо преимущества в использовании SVD вместо PCA [краткий ответ: некорректный вопрос].
Осмысление анализа главных компонент, собственных векторов и собственных значений - мой ответ, дающий нетехническое объяснение PCA. Чтобы привлечь внимание, я воспроизвожу здесь одну фигуру:
источник
Я написал фрагмент Python & Numpy, сопровождающий ответ @ amoeba, и оставляю его здесь на случай, если он кому-нибудь пригодится. Комментарии в основном взяты из ответа @ amoeba.
источник
Ковариационная матрица
В этой длинной статье я расскажу о некоторых деталях и преимуществах отношений между PCA и SVD .
источник