Нагрузки против собственных векторов в PCA: когда использовать тот или иной?

67

В анализе главных компонент (PCA) мы получаем собственные векторы (единичные векторы) и собственные значения. Теперь давайте определим загрузки как

Loadings=EigenvectorsEigenvalues,

Я знаю, что собственные векторы являются просто направлениями, и нагрузки (как определено выше) также включают дисперсию вдоль этих направлений. Но для лучшего понимания я хотел бы знать, где я должен использовать нагрузки вместо собственных векторов? Пример был бы идеальным!

Обычно я видел только людей, использующих собственные векторы, но время от времени они используют нагрузки (как определено выше), и тогда у меня возникает ощущение, что я не совсем понимаю разницу.

user2696565
источник

Ответы:

66

В PCA вы делите ковариационную (или корреляционную) матрицу на масштабную часть (собственные значения) и направляющую часть (собственные векторы). Затем вы можете наделить собственные векторы шкалой: нагрузки . Таким образом, нагрузки, таким образом, становятся сравнимыми по величине с ковариациями / корреляциями, наблюдаемыми между переменными, - потому что то, что было извлечено из ковариации переменных, теперь возвращается обратно - в форме ковариации между переменными и основными компонентами. На самом деле, нагрузки - это ковариации / корреляции между исходными переменными и компонентами в единичном масштабе . Этот ответ показывает геометрически, что такое нагрузки и каковы коэффициенты, связывающие компоненты с переменными в PCA или факторный анализ.

Нагрузки :

  1. Помочь вам интерпретировать основные компоненты или факторы; Потому что они представляют собой линейные весовые коэффициенты (коэффициенты), посредством которых компоненты или коэффициенты в единицах масштаба определяют или «загружают» переменную .

    (Собственный вектор - это просто коэффициент ортогонального преобразования или проекции, он не имеет «нагрузки» в пределах своего значения. «Нагрузка» - это (информация о количестве) дисперсии, величины. ПК извлекаются для объяснения дисперсии переменных. Собственные значения дисперсии (= объясняемые) ПК. Когда мы умножаем собственный вектор на sq.root от значения eivenvalue, мы «загружаем» голый коэффициент на величину дисперсии. Таким образом, мы определяем коэффициент как меру ассоциации , изменчивость.)

  2. Нагрузки иногда «вращаются» (например, varimax) впоследствии для облегчения интерпретации ( см. Также );

  3. Именно нагрузки «восстанавливают» исходную ковариационную / корреляционную матрицу (см. Также этот поток, обсуждающий нюансы PCA и FA в этом отношении);

  4. В то время как в PCA вы можете вычислять значения компонентов как по собственным векторам, так и по нагрузкам, при факторном анализе вы рассчитываете коэффициенты из нагрузок .

  5. И, прежде всего, матрица загрузки является информативной: ее вертикальные суммы квадратов являются собственными значениями, дисперсиями компонентов, а ее горизонтальные суммы квадратов являются частями дисперсий переменных, которые «объясняются» компонентами.

  6. Пересчитанная или стандартизированная загрузка - это загрузка, разделенная на переменную st. отклонение; это корреляция. (Если ваш PCA является корреляция на основе ППШ, нагрузка равна пересчитывается один, потому что корреляция на основе СПС СПС на стандартных переменных.) Масштабированно- нагрузка в квадрате имеет смысл вклада в пр. компонент в переменную; если оно высокое (близко к 1), переменная хорошо определяется только этим компонентом.

Пример вычислений, выполненных в PCA и FA для вас, чтобы увидеть .

Собственные векторы представляют собой масштабные нагрузки; и они являются коэффициентами (косинусами) ортогонального преобразования (вращения) переменных в главные компоненты или обратно. Поэтому с их помощью легко вычислить значения компонентов (не стандартизированные). Кроме того, их использование ограничено. Значение квадрата собственного вектора имеет значение вклада переменной в pr. составная часть; если оно высокое (близко к 1), компонент хорошо определяется только этой переменной.

Хотя собственные векторы и нагрузки - это просто два разных способа нормализовать координаты одних и тех же точек, представляющих столбцы (переменные) данных в биплоте , не стоит смешивать два термина. Этот ответ объяснил почему. Смотрите также .

ttnphns
источник
3
еяграммеNvaLUеs
1
Примечание: в хемометрике вычисление баллов по исходным данным имеет огромное значение, так как многие прогнозные модели используют ротацию PCA (!) Для предварительной обработки, поэтому ограниченное использование нагрузок является ИМХО нашим основным применением для PCA.
cbeleites поддерживает Монику
2
@cbeleites, не только возможно, что терминологические соглашения PCA / FA могут отличаться в разных областях (или в разных программах или книгах) - я утверждаю, что они действительно различаются. В психологии и человеческом поведении «нагрузки» обычно являются тем, что я назвал именем (нагрузки очень важны в этих областях, потому что интерпретация латентных данных еще не завершена, в то время как оценки могут быть уменьшены, стандартизированы, и никто не заботится). С другой стороны, многие Rпользователи на этом сайте назвали собственные векторы PCA «нагрузками», которые, вероятно, могут быть получены из документации по функциям.
ttnphns
(продолжение) Хуже всего то, что слово «нагрузки» используется в других методах (LDA, канонические корреляции и т. д.) не совсем в том же значении, что и в PCA. Таким образом, само слово скомпрометировано. Я согласен с @amoeba, который предполагает, что он будет полностью удален и заменен статистически точными терминами, такими как «корреляции» или «коэффициенты». С другой стороны, «собственные векторы», по-видимому, ограничиваются svd / собственным разложением и некоторыми методами dim. Снижение не выполняйте те вообще или в их классической форме.
ttnphns
1
Вы должны быть в замешательстве. Когда вы правильно рассчитываете результаты ПК с помощью нагрузок, вы получаете просто стандартизированные компоненты. Вы не вычисляете эти оценки по той же формуле, что и для собственных векторов; скорее, вы должны использовать формулы, описанные в ссылке моего № 4.
ttnphns
3

Кажется, существует большая путаница в отношении нагрузок, коэффициентов и собственных векторов. Загрузка слова происходит из факторного анализа и относится к коэффициентам регрессии матрицы данных на факторы. Они не являются коэффициентами, определяющими факторы. См., Например, Mardia, Bibby и Kent или другие учебники по многомерной статистике.

В последние годы слово загрузки использовалось для обозначения коэффициентов ПК. Здесь, кажется, он использовался для указания коэффициентов, умноженных на квадрат собственных значений матрицы. Это не те количества, которые обычно используются в PCA. Главные компоненты определяются как сумма переменных, взвешенных с коэффициентами единичной нормы. Таким образом, ПК имеют норму, равную соответствующему собственному значению, которое, в свою очередь, равно дисперсии, объясняемой компонентом.

Факторный анализ требует, чтобы факторы имели единичную норму. Но FA и PCA совершенно разные. Вращение коэффициента ПК происходит очень редко, потому что это разрушает оптимальность компонентов.

В FA факторы не определены однозначно и могут оцениваться по-разному. Важными величинами являются нагрузки (истинные) и сообщества, которые используются для изучения структуры ковариационной матрицы. PCA или PLS должны использоваться для оценки компонентов.

Марко Стамазза
источник
2
Этот ответ, корректный в определенных аспектах (+1), упускает из виду, что как FA, так и PCA могут быть видны и сравнимы (хотя и различны) как предсказание явных переменных по факторам / компонентам (последняя принятая единица измерения масштабируется). Нагрузки являются коэффициентами этого прогноза. Таким образом, загрузки используются и являются действительными терминами, означающими одно и то же, как в полях FA, так и в полях PCA.
ttnphns
3
Кроме того, очень жаль, что некоторые источники (в частности, документация R) небрежно называют коэффициенты собственных векторов «нагрузками» - они не содержат в них никакой нагрузки .
ttnphns
Просто FA и PCA оценивают другую модель. В FA ошибки ортогональны, в PCA их нет. Я не вижу особого смысла сравнивать результаты, если только вы не ловите модель. Нагрузки являются столбцами матрицы , Lкоторая используется для записи в качестве ковариационной матрицы , S = LL' + Cгде Cявляется диагональной матрицей. они не имеют ничего общего с коэффициентами ПК.
Марко Стамазза
they have nothing to do with the PCs' coefficientsМы вычисляем нагрузки в PCA, как мы делаем это в FA. Модели разные, но смысл нагрузок одинаков в обоих методах.
ttnphns
0
In Factor Analysis (using PCA for extraction), we get orthonormal eigen vectors (unit vectors) and corresponding eigenvalues. Now, loadings are defined as 

Нагрузки = ортонормированные собственные векторы⋅ Квадратный корень из (абсолютных собственных значений) Здесь ортонормированные собственные векторы (т. Е. Термин ортонормированные собственные векторы) обеспечивают направление, а термин квадратный корень из (абсолютных собственных значений) задает значение.

Обычно люди говорят, что знаки в нагрузках не важны, но важна их величина. Но если мы поменяем направление собственных векторов (сохраняя знак других собственных векторов в том виде, как они есть), тогда коэффициенты факторов будут изменены. Следовательно, дальнейший анализ будет значительно затронут.

До сих пор я не мог найти удовлетворительного решения этой двусмысленности.

user173611
источник
0

По-видимому, в этом вопросе есть некоторая путаница, поэтому я приведу некоторые наблюдения и указатель на то, где в литературе можно найти отличный ответ.

Во-первых, PCA и факторный анализ (FA) связаны между собой. В общем, главные компоненты являются ортогональными по определению, в то время как факторы - аналогичный объект в FA - нет. Проще говоря, главные компоненты охватывают пространство факторов произвольным, но не обязательно полезным способом, поскольку они получены из чистого собственного анализа данных. Факторы с другой стороны представляют сущности реального мира, которые являются только ортогональными (то есть некоррелированными или независимыми) по совпадению.

Скажем, мы берем s наблюдения от каждого из l предметов. Они могут быть организованы в матрицу данных D, имеющую s строк и l столбцов. D может быть разложен на матрицу S оценок и матрицу L загрузки , так что D = SL . У S будет s строк, а у L будет l столбцов, причем вторым измерением будет число факторов n . Целью факторного анализа является разложение Dтаким образом, чтобы выявить основные баллы и факторы. Нагрузки в L говорят нам долю каждого балла , которые составляют наблюдения в D .

В PCA L имеет собственные векторы корреляционной или ковариационной матрицы D в качестве своих столбцов. Они обычно располагаются в порядке убывания соответствующих собственных значений. Значение n, т. Е. Количество значимых главных компонентов, которые необходимо сохранить в анализе, и, следовательно, количество строк L, обычно определяется с помощью осветительного графика собственных значений или одного из многочисленных других методов, которые можно найти в литература. Столбцы S в PCA сами образуют n абстрактных главных компонентов. Значение n является основной размерностью набора данных.

Объектом факторного анализа является преобразование абстрактных компонентов в значимые факторы за счет использования в преобразовании матрицы Т , такие , что Д = СТТ -1 л . ( ST ) - преобразованная матрица оценок, а ( T -1 L ) - преобразованная матрица нагрузки.

Приведенное выше объяснение примерно соответствует обозначениям Эдмунда Р. Малиновского из его превосходного факторного анализа в химии . Я настоятельно рекомендую вступительные главы в качестве введения в предмет.

Мэтт Уэнам
источник
Этот ответ, кажется, имеет несколько проблем. Сначала проверьте свои формулы, пожалуйста, они не верны. Во-вторых, вы пытаетесь обсудить различия между FA и PCA. Для этого у нас есть отдельный длинный поток на CV, в то время как текущий поток посвящен загрузкам против собственных векторов, поэтому ответ неуместен. В-третьих, ваша картина FA искажена, особенно в таких фразах, как «цель FA состоит в том, чтобы разложить D» или «цель FA состоит в том, чтобы преобразовать абстрактные компоненты в значимые факторы».
ttnphns
Я считаю, что материал, который я разместил, имеет отношение к обсуждению в этой теме, и он предлагает одно объяснение взаимосвязи между нагрузками и собственными векторами.
Мэтт Уэнам
Мое исследование по этому вопросу кратко изложено в этой статье: onlinelibrary.wiley.com/doi/10.1002/sia.740231303/full
Мэтт Уэнам,
Хорошо, возможно, ваша учетная запись еще действует, но я не могу сказать, что вы не читаете источники, которые вы предлагаете. Тем не менее, я хотел бы отметить, что «взаимосвязь» между нагрузками и собственными векторами в PCA находится в формуле, поставленной в вопросе; поэтому вряд ли есть что-то, что можно «объяснить» (объяснение должно быть различной полезностью). Еще одна вещь, на которую стоит обратить внимание, это то, что Q в первую очередь касается PCA, а не FA. И, наконец, не каждый метод FA имеет дело с собственными векторами вообще, в то время как он обязательно имеет дело с нагрузками.
ttnphns
Извиняюсь, я не думаю, что есть публично доступная версия моей статьи, хотя вы можете получить доступ через Deepdyve.com с двухнедельной пробной версией. Первая глава книги Малиновского доступна по ссылке выше. Это охватывает основы без упоминания собственного анализа. Я должен признать, что я не знал, что факторный анализ мог бы быть выполнен без собственного анализа, как делает вариант, который я использовал - анализ целевого фактора.
Мэтт Уэнам
-1

Я немного смущен этими именами, и я искал в книге под названием «Статистические методы в атмосферной науке», и она дала мне краткое изложение различной терминологии PCA, вот скриншоты в книге, надеюсь, это поможет.

введите описание изображения здесь

введите описание изображения здесь

D.Zhang
источник