Есть ли Факторный анализ или PCA для порядковых или двоичных данных?

28

Я выполнил анализ основных компонентов (PCA), исследовательский факторный анализ (EFA) и подтверждающий факторный анализ (CFA), рассматривая данные с использованием шкалы Ликерта (5-уровневые ответы: нет, немного, немного, ...) как непрерывный переменная. Затем, используя Lavaan, я повторил CFA, определяя переменные как категориальные.

Я хотел бы знать, какие виды анализа будут подходящими и будут эквивалентны PCA и EFA, когда данные имеют порядковый характер. И когда бинарный .

Буду также признателен за предложения по конкретным пакетам или программам, которые можно легко внедрить для такого анализа.

user116948
источник

Ответы:

38

Традиционный (линейный) PCA и факторный анализ требуют данных на уровне шкалы (интервал или отношение). Зачастую данные рейтинга типа Ликерта предполагаются на уровне шкалы, поскольку такие данные легче анализировать. И решение иногда оправдывается статистически, особенно когда количество упорядоченных категорий больше 5 или 6. (Хотя чисто логически вопрос о типе данных и количестве уровней масштаба различен).

Что если вы предпочитаете рассматривать политомную шкалу Ликерта как порядковую? Или у вас есть дихотомические данные? Можно ли провести анализ факторных факторов или PCA для них?

В настоящее время существует три основных подхода к выполнению FA (включая PCA в качестве его особого случая) для категориальных порядковых или двоичных переменных (прочитайте также этот отчет о случае двоичных данных и это рассмотрение о том, что может быть сделано с порядковой шкалой).

  1. Оптимальный подход к масштабированию (семейство приложений ). Также называется категориальным PCA (CatPCA) или нелинейным FA, В CatPCA порядковые переменные монотонно преобразуются («количественно») в их «базовые» версии интервалов с целью максимизации дисперсии, объясняемой выбранным количеством главных компонентов, извлеченных из этих данных интервалов. Что делает метод открыто ориентированным на цели (а не на теорию), и важно заранее принять решение о количестве основных компонентов. Если вместо PCA требуется истинная FA, то обычная линейная FA может, естественно, выполняться для этих преобразованных переменных, выводимых из CatPCA. С бинарными переменными CatPCA (к сожалению?) Ведет себя как обычный PCA, то есть как будто они являются непрерывными переменными. CatPCA принимает также номинальные переменные и любую смесь типов переменных (хорошо).

  2. Предполагаемый базовый переменный подход. Также известен как PCA / FA, выполняемый на тетрахорических (для двоичных данных) или полихорических (для порядковых данных) корреляциях. Для каждой переменной манифеста предполагается нормальное распределение для базовой (затем сгруппированной) непрерывной переменной. Затем применяется классический ФА для анализа вышеуказанных корреляций. Подход легко учитывает смесь интервальных, порядковых, двоичных данных. Один из недостатков этого подхода заключается в том, что - при выводе корреляций - он не имеет никакого отношения к многомерному распределению лежащих в основе переменных, - может "представить" в большинстве случаев двумерные распределения, поэтому основывается не на полной информации.

  3. Подход теории ответа (IRT). Иногда также называется логистической FA или анализом скрытых признаков . Применяется модель, очень близкая к модели двоичного логита (для двоичных данных) или модели пропорциональных логарифмов (для порядковых данных). Алгоритм не связан с декомпозицией корреляционной матрицы, поэтому он немного отличается от традиционной FA, но все же является истинной категориальной FA. «Параметры дискриминации» близко соответствуют нагрузкам ФА, но «трудности» заменяют понятие «уникальности» ФА. Соответствие IRT быстро уменьшается по мере роста числа факторов, что является проблемной стороной этого подхода. IRT расширяется по-своему, чтобы включить смешанный интервал + двоичные + порядковые и, возможно, номинальные переменные.

Факторные оценки в подходах (2) и (3) труднее оценить, чем факторные оценки в классической ФА или в подходе (1). Однако существует несколько методов (ожидаемые или максимальные апостериорные методы, метод максимального правдоподобия и т. Д.).

Предположения модели факторного анализа в основном совпадают в трех подходах с традиционными ФА. Подход (1) доступен в R, SPSS, SAS (на мой взгляд). Подходы (2) и (3) реализуются в основном в специализированных пакетах скрытых переменных - Mplus, LISREL, EQS.

  1. Полиномиальный подход. Это еще не полностью разработано. Основные компоненты могут быть смоделированы как полиномиальные комбинации переменных ( использование полиномов является популярным способом моделирования нелинейных эффектов порядковых регрессоров.). Кроме того, наблюдаемые категории, в свою очередь, могут моделироваться как дискретные проявления полиномиальных комбинаций скрытых факторов.

  2. Существует процветающее поле нелинейных методов уменьшения размерности; некоторые из них могут быть применены или приняты для работы с категориальными данными (особенно двоичными или после преобразования в двоичные данные в многомерный набор разреженных данных).

  3. Выполнение классической (линейной) FA / PCA на ранговых корреляциях или других ассоциациях, подходящих для категориальных данных (Спирмен / Кендалл / Сомер и т.д.). В случае порядковых данных это чисто эвристический подход, не имеющий теоретических оснований и не рекомендуемый вообще. С двоичными данными корреляции Спирмена-Ро и Кендалла-тау-б и ассоциация Фи - все равны корреляции Пирсона-р, поэтому их использование - не что иное, как обычная линейная FA / PCA для двоичных данных (некоторые опасности здесь ). Также возможно (хотя и не вызывает сомнений) сделать анализ по пересчитанной по его текущей величине.р

Посмотрите также на это , это , это , это , это , это , это , это .

ttnphns
источник
3
Феноменальный ответ. Единственное, что нужно добавить, это то, что я думаю, что вы можете использовать пакет psych в R для реализации подходов в (2) (см. Параметр «cor» для функции fa) и (3) (см. Функции irt.fa и irt.poly ) в различной степени, и пакет ltm также может быть использован для ряда моделей IRT.
jsakaluk
1
Они могут отличаться так. Я несколько раз делал инвентаризацию / проверку с помощью «нелинейной FA» (CatPCA-then-EFA) и нашел результаты лучше, чем с обычной (линейной) EFA. Процедура, которую я принял, была такой же, как и с обычной FA, с той лишь разницей, что для каждого анализа - каждого набора элементов, которые я пробую, и каждого количества факторов, которые я извлекал - я делал CatPCA-затем (по количественным переменным) -EFA pas de deux ,
ttnphns
@jsakaluk, спасибо вам большое за информацию. (Я не пользователь R, поэтому плохо знаю его феноменальные возможности).
ttnphns
Спасибо за такие подробные ответы. @ttnphns Я потратил большую часть сегодняшнего дня, пытаясь реализовать CATPCA в SPSS 23. Мне удалось найти два руководства (Linting & Kooij (2012) & unt.edu/rss/class/Jon/SPSS_SC/Module9/M9_CATPCA/… ) пока не смог ответить на несколько моих собственных вопросов. Не могли бы вы предложить хороший выход для решения некоторых технических вопросов? Еще раз спасибо
user116948
1
@ user116948, Если у вас возникли проблемы с пониманием того, как с ним работать в SPSS: Прежде всего, найдите и прочитайте тематическое исследование CATPCA в подменю SPSS Case Studies меню Справка. Во-вторых, просмотрите все вопросы о CATPCA, уже задаваемые на этом сайте. Третье: если у вас остались вопросы - задайте их как новый вопрос на сайте. Не беспокойтесь: если он «слишком технический», его можно перенести в StackOveflow. Далее: выберите сообщество SPSS, чтобы задать свой вопрос (SPSSXL - лучший). Приветствую вас.
ttnphns