В PCA вы делите ковариационную (или корреляционную) матрицу на масштабную часть (собственные значения) и направляющую часть (собственные векторы). Затем вы можете наделить собственные векторы шкалой: нагрузки . Таким образом, нагрузки, таким образом, становятся сравнимыми по величине с ковариациями / корреляциями, наблюдаемыми между переменными, - потому что то, что было извлечено из ковариации переменных, теперь возвращается обратно - в форме ковариации между переменными и основными компонентами. На самом деле, нагрузки - это ковариации / корреляции между исходными переменными и компонентами в единичном масштабе . Этот ответ показывает геометрически, что такое нагрузки и каковы коэффициенты, связывающие компоненты с переменными в PCA или факторный анализ.
Нагрузки :
Помочь вам интерпретировать основные компоненты или факторы; Потому что они представляют собой линейные весовые коэффициенты (коэффициенты), посредством которых компоненты или коэффициенты в единицах масштаба определяют или «загружают» переменную .
(Собственный вектор - это просто коэффициент ортогонального преобразования или проекции, он не имеет «нагрузки» в пределах своего значения. «Нагрузка» - это (информация о количестве) дисперсии, величины. ПК извлекаются для объяснения дисперсии переменных. Собственные значения дисперсии (= объясняемые) ПК. Когда мы умножаем собственный вектор на sq.root от значения eivenvalue, мы «загружаем» голый коэффициент на величину дисперсии. Таким образом, мы определяем коэффициент как меру ассоциации , изменчивость.)
Нагрузки иногда «вращаются» (например, varimax) впоследствии для облегчения интерпретации ( см. Также );
Именно нагрузки «восстанавливают» исходную ковариационную / корреляционную матрицу (см. Также этот поток, обсуждающий нюансы PCA и FA в этом отношении);
В то время как в PCA вы можете вычислять значения компонентов как по собственным векторам, так и по нагрузкам, при факторном анализе вы рассчитываете коэффициенты из нагрузок .
И, прежде всего, матрица загрузки является информативной: ее вертикальные суммы квадратов являются собственными значениями, дисперсиями компонентов, а ее горизонтальные суммы квадратов являются частями дисперсий переменных, которые «объясняются» компонентами.
Пересчитанная или стандартизированная загрузка - это загрузка, разделенная на переменную st. отклонение; это корреляция. (Если ваш PCA является корреляция на основе ППШ, нагрузка равна пересчитывается один, потому что корреляция на основе СПС СПС на стандартных переменных.) Масштабированно- нагрузка в квадрате имеет смысл вклада в пр. компонент в переменную; если оно высокое (близко к 1), переменная хорошо определяется только этим компонентом.
Пример вычислений, выполненных в PCA и FA для вас, чтобы увидеть .
Собственные векторы представляют собой масштабные нагрузки; и они являются коэффициентами (косинусами) ортогонального преобразования (вращения) переменных в главные компоненты или обратно. Поэтому с их помощью легко вычислить значения компонентов (не стандартизированные). Кроме того, их использование ограничено. Значение квадрата собственного вектора имеет значение вклада переменной в pr. составная часть; если оно высокое (близко к 1), компонент хорошо определяется только этой переменной.
Хотя собственные векторы и нагрузки - это просто два разных способа нормализовать координаты одних и тех же точек, представляющих столбцы (переменные) данных в биплоте , не стоит смешивать два термина. Этот ответ объяснил почему. Смотрите также .
R
пользователи на этом сайте назвали собственные векторы PCA «нагрузками», которые, вероятно, могут быть получены из документации по функциям.Кажется, существует большая путаница в отношении нагрузок, коэффициентов и собственных векторов. Загрузка слова происходит из факторного анализа и относится к коэффициентам регрессии матрицы данных на факторы. Они не являются коэффициентами, определяющими факторы. См., Например, Mardia, Bibby и Kent или другие учебники по многомерной статистике.
В последние годы слово загрузки использовалось для обозначения коэффициентов ПК. Здесь, кажется, он использовался для указания коэффициентов, умноженных на квадрат собственных значений матрицы. Это не те количества, которые обычно используются в PCA. Главные компоненты определяются как сумма переменных, взвешенных с коэффициентами единичной нормы. Таким образом, ПК имеют норму, равную соответствующему собственному значению, которое, в свою очередь, равно дисперсии, объясняемой компонентом.
Факторный анализ требует, чтобы факторы имели единичную норму. Но FA и PCA совершенно разные. Вращение коэффициента ПК происходит очень редко, потому что это разрушает оптимальность компонентов.
В FA факторы не определены однозначно и могут оцениваться по-разному. Важными величинами являются нагрузки (истинные) и сообщества, которые используются для изучения структуры ковариационной матрицы. PCA или PLS должны использоваться для оценки компонентов.
источник
L
которая используется для записи в качестве ковариационной матрицы ,S = LL' + C
гдеC
является диагональной матрицей. они не имеют ничего общего с коэффициентами ПК.they have nothing to do with the PCs' coefficients
Мы вычисляем нагрузки в PCA, как мы делаем это в FA. Модели разные, но смысл нагрузок одинаков в обоих методах.Нагрузки = ортонормированные собственные векторы⋅ Квадратный корень из (абсолютных собственных значений) Здесь ортонормированные собственные векторы (т. Е. Термин ортонормированные собственные векторы) обеспечивают направление, а термин квадратный корень из (абсолютных собственных значений) задает значение.
Обычно люди говорят, что знаки в нагрузках не важны, но важна их величина. Но если мы поменяем направление собственных векторов (сохраняя знак других собственных векторов в том виде, как они есть), тогда коэффициенты факторов будут изменены. Следовательно, дальнейший анализ будет значительно затронут.
До сих пор я не мог найти удовлетворительного решения этой двусмысленности.
источник
По-видимому, в этом вопросе есть некоторая путаница, поэтому я приведу некоторые наблюдения и указатель на то, где в литературе можно найти отличный ответ.
Во-первых, PCA и факторный анализ (FA) связаны между собой. В общем, главные компоненты являются ортогональными по определению, в то время как факторы - аналогичный объект в FA - нет. Проще говоря, главные компоненты охватывают пространство факторов произвольным, но не обязательно полезным способом, поскольку они получены из чистого собственного анализа данных. Факторы с другой стороны представляют сущности реального мира, которые являются только ортогональными (то есть некоррелированными или независимыми) по совпадению.
Скажем, мы берем s наблюдения от каждого из l предметов. Они могут быть организованы в матрицу данных D, имеющую s строк и l столбцов. D может быть разложен на матрицу S оценок и матрицу L загрузки , так что D = SL . У S будет s строк, а у L будет l столбцов, причем вторым измерением будет число факторов n . Целью факторного анализа является разложение Dтаким образом, чтобы выявить основные баллы и факторы. Нагрузки в L говорят нам долю каждого балла , которые составляют наблюдения в D .
В PCA L имеет собственные векторы корреляционной или ковариационной матрицы D в качестве своих столбцов. Они обычно располагаются в порядке убывания соответствующих собственных значений. Значение n, т. Е. Количество значимых главных компонентов, которые необходимо сохранить в анализе, и, следовательно, количество строк L, обычно определяется с помощью осветительного графика собственных значений или одного из многочисленных других методов, которые можно найти в литература. Столбцы S в PCA сами образуют n абстрактных главных компонентов. Значение n является основной размерностью набора данных.
Объектом факторного анализа является преобразование абстрактных компонентов в значимые факторы за счет использования в преобразовании матрицы Т , такие , что Д = СТТ -1 л . ( ST ) - преобразованная матрица оценок, а ( T -1 L ) - преобразованная матрица нагрузки.
Приведенное выше объяснение примерно соответствует обозначениям Эдмунда Р. Малиновского из его превосходного факторного анализа в химии . Я настоятельно рекомендую вступительные главы в качестве введения в предмет.
источник
Я немного смущен этими именами, и я искал в книге под названием «Статистические методы в атмосферной науке», и она дала мне краткое изложение различной терминологии PCA, вот скриншоты в книге, надеюсь, это поможет.
источник