Выполнение анализа основных компонентов или факторного анализа двоичных данных

30

У меня есть набор данных с большим количеством ответов Да / Нет. Могу ли я использовать основные компоненты (PCA) или любой другой анализ сокращения данных (такой как факторный анализ) для данных этого типа? Посоветуйте, пожалуйста, как мне это сделать, используя SPSS.

Cathy
источник
1
Что заставило вас рассматривать PCA именно в отличие от дискриминантного анализа?
Крис Симокат
1
Смотрите также: stats.stackexchange.com/a/186026/3277
ttnphns

Ответы:

39

Вопрос о дихотомических или бинарных переменных в PCA или Факторном анализе является вечным. Есть полярные мнения от «это незаконно» до «все в порядке», что-то вроде «вы можете сделать это, но вы получите слишком много факторов». Мое собственное текущее мнение таково. Во-первых, я считаю, что наблюдаемая бинарная переменная является дискретной и что ее нельзя рассматривать как непрерывную. Может ли эта дискретная переменная вызвать фактор или главный компонент?

  • Факторный анализ (ФА). Фактор по определению - это непрерывный латент, который загружает наблюдаемые переменные ( 1 , 2 ). Следовательно, последний не может быть, но непрерывным (или интервалом, более условно говоря), когда достаточно загружен фактором. Кроме того, FA, в силу своей линейной регрессионной природы, предполагает, что остальная - не загруженная - часть, называемая уникальностью, также является непрерывной, и поэтому получается, что наблюдаемые переменные должны быть непрерывными, даже если загружены незначительно. Таким образом, бинарные переменные не могут легализоваться в FA, Тем не менее, есть как минимум два пути обхода: (A) Предположим, что дихотомии, как шероховатые, продолжают лежать в основе переменных и делают FA с тетрахорическими, а не с Пирсоновскими корреляциями; (B) Предположим, что коэффициент загружает дихотомическую переменную не линейно, а с точки зрения логистики, и вместо анализа линейного FA выполняйте анализ скрытых признаков (так называемая теория отклика элемента). Подробнее .

  • Анализ основных компонентов (PCA). Имея много общего с FA, PCA - это не моделирование, а метод суммирования. Компоненты не загружают переменные в том же концептуальном смысле, что и факторы, загружающие переменные. В PCA компоненты загружают переменные, а переменные загружают компоненты. Эта симметрия объясняется тем, что PCA как таковая представляет собой просто вращение осей переменных в пространстве. Двоичные переменные не обеспечивают истинную непрерывность для компонента сами по себе - поскольку они не являются непрерывными, но псевдопрерывность может быть обеспечена углом поворота PCA, который может быть любым. Таким образом, в PCA, и в отличие от FA, вы можете получить, казалось бы, непрерывные размеры (повернутые оси) с чисто двоичными переменными (не повернутые оси) - угол является причиной непрерывности1

    (0,0)2

Некоторые связанные вопросы о FA или PCA двоичных данных: 1 , 2 , 3 , 4 , 5 , 6 . Ответы там могут выражать мнения, отличные от моих.


1сущности уровня - для переменных как точки или категории как точки - их координаты в пространстве главных осей действительно являются масштабными значениями. Но не для точек данных (случаев данных) двоичных данных, их «оценки» являются псевдопрерывными значениями: не внутренняя мера, а лишь некоторые координаты наложения.


21

Пример двоичных данных (простой случай двух переменных):

введите описание изображения здесь

Диаграммы рассеяния, приведенные ниже, отображают точки данных с небольшим разбросом (для рендеринга частоты) и показывают оси главных компонентов в виде диагональных линий, несущих на себе оценки компонентов [эти оценки, согласно моему утверждению, являются псевдопрерывными значениями]. Левый график на каждом изображении демонстрирует PCA, основанный на «сырых» отклонениях от источника, в то время как правый график демонстрирует PCA, основанный на масштабированных (диагональ = единица) отклонениях от него.

1) Традиционный PCA помещает (0,0)происхождение в среднее значение данных (центроид). Для двоичных данных среднее значение не является возможным значением данных. Это, однако, физический центр тяжести. PCA максимизирует изменчивость об этом.

(Не забывайте также, что в двоичной переменной среднее значение и дисперсия строго связаны друг с другом, они, так сказать, «одно». Стандартизация / масштабирование бинарных переменных, то есть выполнение PCA на основе корреляций, а не ковариаций, в текущий случай будет означать, что вы мешаете более сбалансированным переменным - с большей дисперсией - влиять на PCA сильнее, чем более искаженные переменные.)

введите описание изображения здесь

2) Вы можете сделать PCA в нецентрированных данных, т.е. позволить источнику (0,0)перейти в местоположение (0,0). Это PCA на матрице MSCP ( X'X/n) или на косинусной матрице подобия. PCA максимизирует выпуклость из состояния без атрибутов.

введите описание изображения здесь

3) Вы можете позволить источнику (0,0)лежать в точке данных наименьшей суммы расстояний Манхэттена от него до всех других точек данных - L1 medoid. Medoid, как правило, понимается как наиболее «представительная» или «типичная» точка данных. Следовательно, PCA будет максимизировать нетипичность (в дополнение к частоте). По нашим данным, медоид L1 выпал на (1,0)исходные координаты.

введите описание изображения здесь

4) Или поместите начало координат (0,0)в координаты данных, где частота самая высокая - многомерный режим. Это (1,1)ячейка данных в нашем примере. PCA будет максимизировать (руководствоваться) младшие режимы.

введите описание изображения здесь

5) В тексте ответа было упомянуто, что тетрахорические корреляции - это разумный вопрос для проведения факторного анализа двоичных переменных. То же самое можно сказать и о PCA: вы можете делать PCA, основываясь на тетрахорических корреляциях. Однако это означает, что вы предполагаете, что в двоичной переменной лежит основная непрерывная переменная.

ttnphns
источник
2
Что касается связи между FA на бинарных элементах и ​​моделями IRT (1- и 2-PL), вот две статьи, которые могут быть интересны: Takane & de Leeuw, О связи между теорией отклика элементов и факторным анализом дискретизированных переменных , Psychometrika ( 1987) 52 (3): 393; и более поздняя, ​​Kamata & Bauer, «Записка о связи между аналитическими моделями и моделями теории отклика элементов» , SEM (2008) 15: 136.
chl