Методы расчета факторных оценок и что такое матрица «коэффициентов оценки» в PCA или факторный анализ?

20

Насколько я понимаю, в PCA, основанном на корреляциях, мы получаем фактор (= основной компонент в данном случае) нагрузки, которые являются ничем иным, как корреляцией между переменными и факторами. Теперь, когда мне нужно сгенерировать факторные оценки в SPSS, я могу напрямую получить факторные оценки каждого респондента для каждого фактора. Я также заметил, что если я умножу « матрицу коэффициентов компонентных баллов » (созданную SPSS) на стандартизированные исходные переменные, я получу те же коэффициенты, что и SPSS.

Может ли кто-нибудь помочь мне понять, как рассчитывается «матрица коэффициентов для оценки компонентов» или «матрица коэффициентов для оценки факторов», с помощью которой я могу вычислять оценки факторов или компонентов? Чем отличаются разные методы вычисления коэффициентов факторов в этой матрице?

Картикея Пандей
источник
1
Формула приведена, например, здесь stats.stackexchange.com/a/92512/3277 .
ttnphns
@amoeba, если кто-то делает PCA, слово «коэффициент оценки» означает «оценка компонента», они эквивалентны. См. Нижнюю часть связанного ответа выше - в модели PCA формула, которая чаще всего используется для вычисления коэффициентов в FA, дает точные (стандартизированные) оценки компонентов.
ttnphns
2
SPSS отображает вы матрица коэффициентов , а также сохраняет (стандартизированные) оценки , как новые переменные, добавляющим их в наборе данных исходных переменных . ОП - я думаю - стандартизировал и затем умножил . И, вуаля, это то, что SPSS добавлено в набор данных! Итак, вопрос ОП в том, что вау! следующий за "как был вычислен?" X X X B BВИксИксИксВВ
ttnphns
@ttnphs вы правильно поняли, что я имел в виду. Но моя проблема в том, что я предполагал, что, если я использую XB для прогнозирования фактора socre каждого наблюдения, тогда B должен был быть факторной нагрузкой, но в SPSS это «матрица коэффициентов оценки компонента», а не «повернутая загрузка фактора», поэтому Я хотел понять взаимосвязь или разницу между «повернутым коэффициентом загрузки» и «матрицей коэффициентов компонента».
Картикея Пандей
Итак, как я понял из ссылки, я просто хочу один раз убедиться, что если A - это повернутая загрузка коэффициента, то (Inverse (A)) '- это «матрица коэффициентов оценки компонента», которую также можно рассчитать с помощью формулы A⋅diag. Обратное ((собственные значения))
Картикея Пандей

Ответы:

25

Методы расчета коэффициентов / компонентных баллов

После серии комментариев я решил, наконец, выдать ответ (на основе комментариев и многое другое). Речь идет о вычислении оценок компонентов в PCA и факторных оценок в факторном анализе.

Факторные / компонентные оценки задаются как , где - анализируемые переменные ( центрированы, если PCA / факторный анализ основан на ковариациях, или z-стандартизированы, если он основан на корреляциях). - матрица коэффициента / компонента (или веса) . Как можно оценить эти веса?ХБF^знак равноИксВИксВ

нотация

р - p x pматрица переменных (элементарных) корреляций или ковариаций, в зависимости от того, был ли проанализирован фактор / PCA.

Aп - p x mматрица факторных / компонентных нагрузок . Это могут быть нагрузки после извлечения (часто также обозначаемые ), при которых латенты являются ортогональными или практически такими же, или нагрузки после вращения, ортогональные или наклонные. Если вращение было наклонным , это должны быть загрузки шаблона .A

С - m x mматрица корреляций между факторами / компонентами после их (нагрузок) наклонного вращения. Если вращение или ортогональное вращение не выполнялось, это единичная матрица.

=РСР'=РР'р^ - p x pприведенная матрица воспроизводимых корреляций / ковариаций, ( для ортогональных решений), она содержит сообщества на своей диагонали.знак равнопСп'знак равнопп'

R U 2U2 - p x pдиагональная матрица уникальностей (уникальность + = диагональный элемент ). Я использую «2» в качестве нижнего индекса здесь вместо верхнего индекса ( ) для удобства чтения в формулах.рU2

= R + U 2р* - p x pполная матрица воспроизводимых корреляций / ковариаций, .знак равнор^+U2

M M M + = ( M M ) - 1 M M+ - псевдообратная матрица ; если полный ранг, .MMM+знак равно(M'M)-1M'

М р о ж е г H K H ' = М М р о ж е г = Н К р о ж е р Н 'Mповесер - для некоторой квадратно-симметричной матрицы его возведение в равно собственному разложению , поднятию собственных значений до мощности и составлению обратно: .MповесерЧАСКЧАС'знак равноMMповесерзнак равноЧАСКповесерЧАС'

Грубый метод вычисления коэффициентов / компонентных оценок

Этот популярный / традиционный подход, иногда называемый Cattell's, просто усредняет (или суммирует) значения элементов, которые загружаются одним и тем же фактором. Математически это равносильно установке весов при вычислении баллов . Существует три основных варианта подхода: 1) использовать загрузки как есть; 2) Дихотомизируйте их (1 = загружено, 0 = не загружено); 3) Используйте нагрузки как они есть, но обнуляйте нагрузки меньше, чем какой-либо порог.Р = Х БВзнак равнопF^знак равноИксВ

Часто при таком подходе, когда элементы находятся в одной и той же шкале, значения используются просто как необработанные; хотя, чтобы не нарушать логику факторинга, лучше использовать X, поскольку он входит в факторинг - стандартизированный (= анализ корреляций) или центрированный (= анализ ковариаций).ИксИкс

Основным недостатком грубого метода подсчета баллов по факторам / компонентам, на мой взгляд, является то, что он не учитывает корреляции между загруженными элементами. Если элементы, загруженные каким-либо фактором, тесно коррелируют, а один загружается сильнее, чем другой, последний можно разумно считать младшим дубликатом, а его вес можно уменьшить. Усовершенствованные методы делают это, но грубый метод не может.

Грубые оценки, конечно, легко вычислить, потому что не требуется инверсия матриц. Преимущество грубого метода (объясняющего, почему он все еще широко используется, несмотря на доступность компьютеров) состоит в том, что он дает оценки, которые являются более стабильными от выборки к выборке, когда выборка не идеальна (в смысле репрезентативности и размера), или элементы для анализ не был хорошо выбран. Приведу одну статью: «Метод суммарной оценки может быть наиболее желателен, когда шкалы, используемые для сбора исходных данных, не проверены и не проверены, практически не имеют доказательств надежности или достоверности». Кроме того , не обязательно понимать «фактор» обязательно как одномерную скрытую сущность, как этого требует модель факторного анализа ( см. , См.). Вы можете, например, концептуализировать фактор как совокупность явлений - тогда разумно суммировать значения элементов.

Уточненные методы вычисления коэффициентов / компонентных оценок

Эти методы - то, что делают пакеты факторного анализа. Они оценивают различными методами. В то время как нагрузки A или P являются коэффициентами линейных комбинаций для прогнозирования переменных по факторам / компонентам, B являются коэффициентами для вычисления коэффициентов / компонентов по переменным.ВAпВ

Баллы, вычисленные с помощью , масштабируются: они имеют дисперсии, равные или близкие к 1 (стандартизированные или почти стандартизированные), а не истинные дисперсии фактора (которые равны сумме нагрузок на квадраты конструкции, см. Сноску 3 здесь ). Поэтому, когда вам нужно предоставить факторные оценки с дисперсией истинного фактора, умножьте оценки (стандартизировав их до st.dev. 1) на квадратный корень этой дисперсии.В

Вы можете сохранить из анализа , проведенного, чтобы быть в состоянии вычислить оценки для новых ближайших наблюдений X . Кроме того, B может использоваться для взвешивания предметов, составляющих шкалу вопросника, когда шкала разработана или подтверждена с помощью факторного анализа. (Квадрат) коэффициенты B могут быть интерпретированы как вклад предметов в факторы. Коэффициенты могут быть стандартизированы как коэффициент регрессии стандартизирован β = b σ i t e mВИксВВ (гдеσfactor=1), чтобы сравнить вклады элементов с различными отклонениями.βзнак равнобσяTемσеaсTорσеaсTорзнак равно1

См. Пример, показывающий вычисления, выполненные в PCA и в FA, включая вычисление оценок из матрицы коэффициентов оценки.

Геометрическое объяснение нагрузок 's (в виде перпендикулярных координат) и балльных коэффициентов ' s (перекос координат) в настройках PCA представлено на первых двух рисунках здесь .aб

Теперь к изысканным методам.

Методы

Вычисление в PCAВ

Когда нагрузки компонентов извлекаются, но не вращаются, , где L - диагональная матрица, состоящая из собственных значений; эта формула сводится к простому делению каждого столбца A на соответствующее собственное значение - дисперсию компонента.Взнак равноAL-1LmA

Эквивалентно, . Эта формула верна и для компонентов (нагрузок), повернутых, ортогонально (например, варимакс) или наклонно.Взнак равно(п+)'

Некоторые из методов, использованных в факторном анализе (см. Ниже), если применяются в PCA, дают тот же результат.

Вычисленные оценки компонентов имеют отклонения 1, и они представляют собой истинные стандартизированные значения компонентов .

То, что в анализе статистических данных называется матрицей коэффициентов главных компонент , и если она рассчитывается по полной, а не повернутой матрице нагрузки, то в литературе по машинному обучению часто обозначается (основанная на PCA) матрица отбеливания , а стандартизованные главные компоненты распознаются как «отбеленные» данные.Вp x p

Вычисление в анализе общего фактораВ

В отличие от оценок компонентов, факторные оценки никогда не бывают точными ; они являются лишь приближением к неизвестным истинным значениям факторов. Это потому, что мы не знаем значений общностей или уникальностей на уровне случая, поскольку факторы, в отличие от компонентов, являются внешними переменными, отделенными от явных, и имеют свое собственное, неизвестное нам распределение. Что является причиной неопределенности этого фактора . Обратите внимание, что проблема неопределенности логически не зависит от качества факторного решения: сколько фактора является истинным (соответствует скрытому тому, что генерирует данные в популяции), является другой проблемой, чем то, сколько оценок респондента фактора (точные оценки) извлеченного фактора).F

Поскольку факторные оценки являются приблизительными, существуют альтернативные методы для их вычисления и конкуренции.

Регрессионный или метод Тёрстона или Томпсона для оценки факторных баллов задается как , где S = P C - матрица структурных нагрузок (для решений с ортогональными факторами мы знаем A = P = S ). Основа метода регрессии в сноске 1 .Взнак равнор-1пСзнак равнор-1SSзнак равнопСAзнак равнопзнак равноS1

Заметка. Эта формула для применима и к PCA: в PCA она даст тот же результат, что и формулы, приведенные в предыдущем разделе.В

В FA (не PCA) регрессионно рассчитанные коэффициенты будут выглядеть не совсем «стандартизированными» - будут иметь отклонения не 1, а равные регрессии этих показателей с помощью переменных. Это значение может быть интерпретировано как степень определения фактора (его истинно неизвестные значения) по переменным - R-квадрат прогнозирования ими реального фактора, а метод регрессии максимизирует его, - «достоверность» вычисленного баллы. Рисунок2показывает геометрию. (Обратите вниманиечтоSS г й г гSSреграммр(N-1)2 будет равно дисперсии баллов для любого уточненного метода, но только для метода регрессии эта величина будет равна пропорции определения истинного f. значения по ф. баллы.)SSреграммр(N-1)

В качестве варианта регрессионного метода можно использовать вместо R в формуле. Это оправдано тем, что в хорошем факторном анализе R и R очень похожи. Однако, когда их нет, особенно когда число факторов меньше, чем истинное количество населения, метод дает сильный сдвиг в оценках. И вам не следует использовать этот метод «воспроизводимой R-регрессии» с PCA.р*ррр*m

р^рВзнак равно(п+)'С

Икс^знак равноFп'Fзнак равно(п+)'Икс^ИксИкс^FF^Икс

Обратите внимание, что этот метод не передает оценки компонентов PCA для оценок факторов, потому что используемые нагрузки являются не нагрузками PCA, а факторным анализом '; только то, что вычислительный подход для оценки отражает то, что в PCA.

В'знак равно(п'U2-1п)-1п'U2-1p

В'знак равно(п'U2-1рU2-1п)-1/2п'U2-1

Взнак равнор-1/2граммЧАС'С1/2граммЧАСSVD(р1/2U2-1пС1/2)знак равнограммΔЧАС'mграмм

граммЧАСSVD(р-1/2пС3/2)знак равнограммΔЧАС'mграмм

Krijnen et al метод . Этот метод является обобщением, которое объединяет оба предыдущих в одной формуле. Это, вероятно, не добавляет каких-либо новых или важных новых функций, поэтому я не рассматриваю это.

Сравнение изысканных методов .

  • Метод регрессии максимизирует корреляцию между оценками фактора и неизвестными истинными значениями этого фактора (то есть максимизирует статистическую достоверность ), но оценки несколько смещены, и они несколько некорректно коррелируют между факторами (например, они коррелируют, даже когда факторы в решении ортогональны). Это оценки наименьших квадратов.

  • Метод PCA также наименьших квадратов, но с меньшей статистической достоверностью. Они быстрее вычисляются; они не часто используются в факторном анализе в наше время из-за компьютеров. (В PCA этот метод является родным и оптимальным.)

  • Икс

  • Оценки Андерсона-Рубина / Макдональда-Андерсона-Рубина и Грина называются сохраняющими корреляцию, поскольку они рассчитываются для точной корреляции с показателями факторов других факторов. Корреляции между факторными показателями равны корреляциям между факторами в решении (например, в ортогональном решении, например, оценки будут совершенно некоррелированными). Но оценки несколько предвзяты, и их обоснованность может быть скромной.

Проверьте эту таблицу тоже:

введите описание изображения здесь

[Примечание для пользователей SPSS: если вы выполняете PCA (метод извлечения «главных компонентов»), но оценки факторов запроса отличны от метода «регрессии», программа игнорирует запрос и вместо этого вычисляет вам оценки «регрессии» (которые являются точными оценка по компонентам).]

Ссылки

  1. Грайс, Джеймс В. Вычисление и оценка факторных показателей // Психологические методы 2001, Vol. 6, № 4, 430-450.

  2. DiStefano, Christine et al. Понимание и использование факторных показателей // Практическая оценка, исследование и оценка, том 14, № 20

  3. Ten Berge, Jos MFet al. Некоторые новые результаты о методах прогнозирования коэффициентов, сохраняющих корреляционные коэффициенты // Линейная алгебра и ее приложения 289 (1999) 311-318.

  4. Мулайк, Стэнли А. Основы факторного анализа, 2-е издание, 2009

  5. Харман, Гарри Х. Современный факторный анализ, 3-е издание, 1976

  6. Нойдекер, Хайнц. О наилучшем аффинном непредвзятом прогнозирующем сохранении ковариации факторных баллов // СОРТ 28 (1) январь-июнь 2004, 27-36


1Fзнак равноб1Икс1+б2Икс2s1s2F

s1знак равноб1р11+б2р12

s2знак равноб1р12+б2р22

рИксsзнак равнорбFбрs


2

введите описание изображения здесь

ttnphns
источник
3
Хороший ответ, проголосовал! Просто хотел сказать, что я впечатлен вашими знаниями в области статистики в целом и факторного анализа в частности. Будем рады связи с вами в LinkedIn и других социальных сетях. Кстати, к вашему сведению: ссылка на сайт вашей компании в вашем профиле не работает.
Александр Блех
ИксFAFр-1A
(я+AU-2A)-1AU-2я
@amoeba, я добавил немного информации к ответу относительно вашего первого комментария. Для вашего второго комментария - извините, я думаю, что не могу ответить на него, не копаясь в книгах. Если вы найдете ответ самостоятельно, пожалуйста, проясните его для аудитории. :-)
ttnphns
1
Удивительное обновление @ttnphns, отличная работа. Я заметил, что этот поток был просмотрен 13k раз, он должен занимать высокое место в некоторых популярных поиске Google.
говорит амеба: восстанови Монику
-2

Для проведения PCA в метеорологии коэффициенты корреляции получают с использованием либо коэффициента корреляции Пирсона (если переменные находятся в разных единицах, так как он позволяет стандартизировать данные, чтобы их можно было сравнивать напрямую без каких-либо расхождений из-за различий в размерах / величине между данными, таким образом, коэффициенты корреляции могут просто сравнивать степень дисперсии вокруг среднего значения для каждого набора данных и между каждым набором данных.В противном случае, если все данные измеряются с использованием одной и той же единицы, можно использовать ковариационный метод. SPSS делает это легко.

Ekta
источник
1
Это совершенно непонятно - каким образом ответ связан с вопросом (т. Е. Вычислением оценок компонентов / факторов)?
ttnphns
YN×пзнак равноЕп×пТZп×N