Я узнал о PCA несколько лекций назад в классе, и, узнав больше об этой увлекательной концепции, я узнал о редких PCA.
Я хотел спросить, если я не ошибаюсь, это то, что является редким PCA: В PCA, если у вас есть точек данных с переменными, вы можете представить каждую точку данных в мерном пространстве перед применением PCA. После применения PCA вы можете снова представить его в том же пространстве измерений, но на этот раз первый главный компонент будет содержать наибольшее отклонение, второй будет содержать второе направление отклонения и т. Д. Таким образом, вы можете исключить несколько последних основных компонентов, так как они не приведут к большой потере данных и вы можете сжать данные. Правильно?
Разреженный PCA выбирает главные компоненты так, чтобы эти компоненты содержали меньше ненулевых значений в своих векторных коэффициентах.
Как это должно помочь вам лучше интерпретировать данные? Кто-нибудь может привести пример?
источник
Ответы:
Вопрос о том, легче ли интерпретировать разреженный PCA, чем стандартный PCA, зависит от набора данных, который вы исследуете. Вот как я об этом думаю: иногда больше интересуются проекции PCA (низкоразмерное представление данных), а иногда - по основным осям; только в последнем случае разреженный PCA может иметь какие-либо преимущества для интерпретации. Позвольте мне привести пару примеров.
Я, например, работаю с нейронными данными (одновременные записи многих нейронов) и применяю методы PCA и / или связанные с ними уменьшения размерности, чтобы получить низкоразмерное представление активности нейронной популяции. У меня может быть 1000 нейронов (т.е. мои данные живут в 1000-мерном пространстве), и я хочу проецировать их на три ведущие главные оси. Что это за оси, для меня совершенно неважно, и я не собираюсь каким-либо образом «интерпретировать» эти оси. Что меня интересует, так это 3D-проекция (поскольку активность зависит от времени, я получаю траекторию в этом 3D-пространстве). Так что я в порядке, если каждая ось имеет все 1000 ненулевых коэффициентов.
С другой стороны, кто-то может работать с более «осязаемыми» данными, где отдельные измерения имеют очевидное значение (в отличие от отдельных нейронов выше). Например, набор данных о различных автомобилях, размеры которых варьируются от веса до цены. В этом случае, возможно, кто-то действительно заинтересован в ведущих главных осях, потому что кто-то может захотеть что-то сказать: посмотрите, первая главная ось соответствует «причудливости» автомобиля (я сейчас все это придумываю). Если проекция является разреженной, такие интерпретации, как правило, было бы легче дать, потому что многие переменные будут иметь коэффициентов и, следовательно, очевидно, не имеют значения для этой конкретной оси. В случае стандартного PCA обычно получают ненулевые коэффициенты для всех переменных.0
Вы можете найти больше примеров и некоторое обсуждение последнего случая в статье Sparse PCA 2006 года Zou et al. Разница между первым и последним случаем, однако, я не видел явно нигде обсуждавшимся (хотя, вероятно, так и было).
источник
Да, ты прав. И если имеется переменных , то у вас есть Основной компонент , и каждая переменная имеет информацию (вклад) в каждом ПК .N В1, V2, ⋯ , VN N пС1, PС2, ⋯ , PСN Вя пСя
В Sparse PCA есть без информации о некоторых переменных , переменных с нулевым коэффициентом.пСя ВJ, VL, ⋯
Затем, если в одной плоскости меньше переменных, чем ожидалось ( ), легче очистить линейные отношения между ними в этой плоскости.( PСя, PСJ) N
источник
Чтобы понять преимущества разреженности в PCA, вам необходимо убедиться, что вы знаете разницу между «загрузками» и «переменными» (для меня эти имена несколько произвольны, но это не важно).
Допустим, у вас есть матрица данных nxp X , где n - количество выборок. SVD X = USV ' , дает вам три матрицы. Объединение первых двух Z = US дает вам матрицу главных компонентов. Допустим, ваш приведенный ранг равен k , тогда Z равно nxk . Z - это, по сути, ваша матрица данных после уменьшения размера. Исторически,
С другой стороны, V (то есть pxk ) содержит главные векторы загрузки, и его записи называются основными загрузками. Учитывая свойства PCA, легко показать, что Z = XV . Это значит, что:
Теперь, когда эти определения находятся вне пути, мы будем смотреть на разреженность. Большинство статей (или, по крайней мере, большинство из тех, с которыми я сталкивался), обеспечивают разреженность основных загрузок (также известный как V ). Преимущество редкости заключается в том, что
Существуют также интерпретации для обеспечения разреженности записей Z , которые, как я видел, люди называют «разреженная переменная PCA», но это гораздо менее популярно, и, честно говоря, я не особо задумывался об этом.
источник