Каковы предположения факторного анализа?

11

Я хочу проверить, действительно ли я понял [классический, линейный] факторный анализ (ФА), особенно предположения , сделанные до (и, возможно, после) ФА.

Некоторые данные должны быть изначально коррелированы, и между ними возможна линейная связь. После проведения факторного анализа данные обычно распределяются (двумерное распределение для каждой пары), и нет никакой корреляции между факторами (общими и специфическими), а также нет корреляции между переменными из одного фактора и переменными из других факторов.

Это правильно?

Сихем
источник

Ответы:

12

Предположения входных данных для линейного FA (я не говорю здесь о внутренних предположениях / свойствах модели FA или о проверке качества результатов ).

  1. Масштаб (интервал или соотношение) входных переменных . Это означает, что элементы являются либо непрерывными измерениями, либо концептуализируются как непрерывные при измерении в дискретном количественном масштабе. Нет порядковых данных в линейном FA ( читать ). Также следует избегать двоичных данных (см. Это , это ). Линейный ФА предполагает, что скрытые общие и уникальные факторы являются непрерывными . Поэтому наблюдаемые переменные, которые они загружают, тоже должны быть непрерывными.
  2. Корреляции линейны . Линейная FA может быть выполнена на основе любой матрицы ассоциации типа SSCP : корреляция Пирсона, ковариация, косинус и т. Д. (Хотя некоторые методы / реализации могут ограничиваться только корреляциями Пирсона). Обратите внимание, что это все произведения линейной алгебры. Несмотря на то, что величина коэффициента ковариации отражает больше, чем просто линейность в отношении, моделирование в линейной ФА имеет линейный характер даже при использовании ковариаций: переменные представляют собой линейные комбинации факторови, следовательно, линейность подразумевается в результирующих ассоциациях. Если вы видите / думаете, что преобладают нелинейные ассоциации - не делайте линейную FA или пытайтесь сначала линеаризовать их с помощью некоторых преобразований данных. И не базовый линейной FA на Спирмен или Kendall корреляций (Pt. 4 есть ).
  3. Нет выбросов - это как с любым ненадежным методом. Корреляция Пирсона и подобные ассоциации типа SSCP чувствительны к выбросам, так что следите.
  4. Достаточно высокие корреляции присутствуют . ФА - это анализ корреляции, - какая польза от него, когда все или почти все корреляции слабы? - бесполезно. Однако то, что является «достаточно высокой корреляцией», зависит от области исследования. Существует также интересный и разнообразный вопрос о том, следует ли принимать очень высокие корреляции (например, здесь обсуждается их влияние на PCA ). Для статистической проверки, не являются ли данные некоррелированными , можно использовать критерий сферичности Бартлетта .
  5. Частичные корреляции слабы, и фактор может быть достаточно определен . FA предполагает, что факторы являются более общими, чем просто загрузка пар взаимосвязанных элементов. На самом деле, есть даже совет не извлекать факторы, прилично загружающие менее 3 предметов в эксплуатирующую ТВС; и в подтверждающей ФА только 3+ имеет гарантированно идентифицированную структуру. Техническая проблема извлечения, называемая делом Хейвуда, имеет в качестве одной из причин ситуацию «слишком мало элементов на факторе». Кайзер-Мейер-Олкин ( KMO ) "мера адекватности выборки" оценивает для вас, насколько слабы частичные корреляции в данных относительно полных корреляций; он может быть рассчитан для каждого элемента и для всей корреляционной матрицы.
  6. p1n observations > p variablesn>>p
  7. Распространение . В целом, линейная ТВ не требует нормальности входных данных. Умеренно искаженные распределения являются приемлемыми. Бимодальность не является противопоказанием. Нормальность действительно предполагается для уникальных факторов в модели (они служат ошибками регрессии), но не для общих факторов и входных данных ( см. Также). Тем не менее, многомерная нормальность данных может потребоваться в качестве дополнительного предположения некоторыми методами извлечения (а именно, с максимальной вероятностью) и проведением некоторого асимптотического тестирования.

1

ttnphns
источник
Не могли бы вы прочитать этот пост , казалось, немного по-другому.
WhiteGirl
Если Binary data should also be avoided, какой еще метод факторного анализа мы можем сделать для binary data?
Kittygirl
уважаемые ttnphns; Я заметил, что вы не упоминаете, что данные считаются нормальными, а другие онлайн указывают, что нормальность не требуется. Мой вопрос: если латентные переменные считаются нормальными, а наблюдения моделируются как взвешенная сумма факторов, не означает ли это нормальное распределение наблюдений? (Извините, я уверен, что это глупый вопрос)
user2957945
@ user2957945, пункт 7 говорит о нормальности. Предположение о нормальности необходимо для некоторых методов извлечения факторов и для выполнения некоторых статистических тестов, факультативно сопровождающих факторный анализ. На ваш вопрос: Да, если факторы распределены нормально и ошибки тоже нормально, это будет означать, что явные переменные также являются нормальными.
ttnphns
ах, спасибо @ttnphns; извините, что беспокою вас - я не совсем понимаю, как мне удалось это пропустить. Ценю вашу помощь.
user2957945
9

В большинстве случаев факторный анализ проводится без каких-либо статистических тестов как таковых. Это гораздо более субъективно и толковательно, чем такие методы, как регрессия, моделирование структурных уравнений и так далее. И, как правило, это логические тесты, которые идут с допущениями: чтобы значения p и доверительные интервалы были правильными, эти допущения должны быть выполнены.

Теперь, если метод выбора числа факторов установлен как метод максимального правдоподобия, то существует допущение, которое заключается в следующем: переменные, входящие в факторный анализ, будут иметь нормальные распределения.

То, что входные переменные будут иметь ненулевые корреляции, является своего рода предположением в том смысле, что без их истинности результаты факторного анализа будут (вероятно) бесполезны: ни один фактор не появится в качестве скрытой переменной за некоторым набором входных переменных.

Поскольку «нет корреляции между факторами (общими и специфическими), а также нет корреляции между переменными одного фактора и переменными других факторов», это не универсальные предположения, которые делают аналитики факторов, хотя порой это либо условие (либо приближение) из этого) может быть желательно. Последний, когда он имеет место, он известен как «простая структура».

Есть еще одно условие, которое иногда рассматривается как «предположение»: чтобы корреляции нулевого порядка (ванильные) среди входных переменных не были затоплены большими частичными корреляциями. В двух словах это означает, что отношения должны быть сильными для одних пар и слабыми для других; в противном случае результаты будут «грязными». Это связано с желательностью простой структуры и фактически может быть оценено (хотя формально не «проверено») с использованием статистики Кайзера-Мейера-Олкина или КМО. Значения КМО около 0,8 или 0,9 обычно считаются очень многообещающими для результатов анализа информативных факторов, в то время как КМО около 0,5 или 0,6 гораздо менее перспективны, а значения ниже 0,5 могут побудить аналитика пересмотреть свою стратегию.

rolando2
источник
Как я читал, этот факторный анализ начинается с некоторой корреляции с переменными, и мы пытаемся сделать эту корреляцию все более и более ясной
Sihem
1
После применения факторного анализа, если мы использовали ортогональное вращение, мы будем уверены, что между факторами нет корреляции
Sihem
2

Предположения, лежащие в основе исследовательского факторного анализа:
• Интервал или уровень отношения измерений
• Случайная выборка
• Отношение между наблюдаемыми переменными является линейным
• Нормальное распределение (каждая наблюдаемая переменная)
• Двустороннее нормальное распределение (каждая пара наблюдаемых переменных)
• Многофакторная нормальность
Выше из файл SAS

Крис Келли
источник