Перекошенные переменные в PCA или факторный анализ

9

Я хочу провести анализ основных компонентов (факторный анализ) по SPSS на основе 22 переменных. Однако некоторые из моих переменных очень искажены (асимметрия, рассчитанная по SPSS, колеблется от 2 до 80!).

Итак, вот мои вопросы:

  1. Должен ли я оставить таким образом перекошенные переменные или я могу преобразовать переменные при анализе главных компонентов? Если да, как бы я интерпретировал факторные оценки?

  2. Какой тип преобразования я должен сделать? log10 или ln?

  3. Первоначально моя КМО (Кайзер-Мейер-Олкин) составляет 0,413. Много литературы рекомендует минимум 0,5. Могу ли я по-прежнему проводить факторный анализ или мне нужно удалить переменные, чтобы повысить КМО до 0,5?

Meo
источник
5
Одно замечание: PCA - это не то же самое, что факторный анализ. PCA - это метод сокращения данных, FA - это попытка найти скрытые переменные. Они часто (но не всегда) дают сходные результаты
Питер Флом

Ответы:

9
  1. Проблема асимметрии в PCA такая же, как и в регрессии: более длинный хвост, если он действительно длинный относительно всего диапазона распределения, на самом деле ведет себя как большой выброс - он сильно притягивает линию соответствия (главный компонент в вашем случае) к сам, потому что его влияние усиливается; его влияние усиливается, потому что оно так далеко от среднего. В контексте PCA разрешение очень искаженных переменных очень похоже на выполнение PCA без центрирования данных (то есть выполнение PCA на основе косинусной матрицы, а не корреляционной матрицы). Это вы сами решаете , позволять ли длинному хвосту так сильно влиять на результаты (и позволять данным) или нет (и преобразовывать данные). Вопрос не связан с тем, как вы делаете интерпретацию нагрузок.

  2. Как вам нравится.

  3. КМО - это индекс, который указывает, достаточно ли малы частичные корреляции для представления данных в факторный анализ. Потому что в факторном анализе мы обычно ожидаем, что фактор будет загружать не только две переменные. Ваша КМО достаточно низкая. Вы можете сделать это лучше , если вы падаете от переменного анализа с низкими индивидуальными значениями КМО (этих формами диагональ анти-изображениями матрицы, вы можете запросить , чтобы показать эту матрицу в процедуре SPSS Factor). Может ли преобразование переменных в менее искаженное восстановить KMO? Кто знает. Может быть. Обратите внимание, что КМО важен в основном в модели факторного анализа, а не в модели анализа главных компонентов: в FA вы подходите для парных корреляций, а в PCA - нет.

ttnphns
источник
2

+1 к @ttnphns, я просто хочу немного расширить пункт №2. Преобразования часто используются для стабилизации перекоса. Как указывает @ttnphns, вы должны использовать их перед выполнением анализа. Логарифмические преобразования являются частью семейства силовых преобразований Бокса-Кокса., Вы захотите рассмотреть более широкий диапазон возможных преобразований, чем просто журналы (например, квадратный корень, взаимное и т. Д.). Выбор между различными логарифмическими основаниями не влияет на силу преобразования. Когда люди собираются математически работать с преобразованной переменной, натуральные журналы иногда предпочтительнее, так как в некоторых случаях натуральные журналы могут привести к более чистой математике. Если вас это не волнует, вы можете выбрать базу, которая облегчит интерпретацию. То есть каждое увеличение единицы в новой шкале будет представлять базуувеличение первоначальной шкалы в 3 раза (например, если вы используете базу 2 журналов, то каждая единица будет в 2 раза больше, база 10 означает, что каждая единица будет в 10 раз больше, и т. д.), так что это может быть приятно выбрать такую ​​базу, чтобы ваши данные охватывали несколько единиц в преобразованном масштабе.

Gung - Восстановить Монику
источник