Я хочу проверить, действительно ли я понял [классический, линейный] факторный анализ (ФА), особенно предположения , сделанные до (и, возможно, после) ФА.
Некоторые данные должны быть изначально коррелированы, и между ними возможна линейная связь. После проведения факторного анализа данные обычно распределяются (двумерное распределение для каждой пары), и нет никакой корреляции между факторами (общими и специфическими), а также нет корреляции между переменными из одного фактора и переменными из других факторов.
Это правильно?
Binary data should also be avoided
, какой еще метод факторного анализа мы можем сделать дляbinary data
?В большинстве случаев факторный анализ проводится без каких-либо статистических тестов как таковых. Это гораздо более субъективно и толковательно, чем такие методы, как регрессия, моделирование структурных уравнений и так далее. И, как правило, это логические тесты, которые идут с допущениями: чтобы значения p и доверительные интервалы были правильными, эти допущения должны быть выполнены.
Теперь, если метод выбора числа факторов установлен как метод максимального правдоподобия, то существует допущение, которое заключается в следующем: переменные, входящие в факторный анализ, будут иметь нормальные распределения.
То, что входные переменные будут иметь ненулевые корреляции, является своего рода предположением в том смысле, что без их истинности результаты факторного анализа будут (вероятно) бесполезны: ни один фактор не появится в качестве скрытой переменной за некоторым набором входных переменных.
Поскольку «нет корреляции между факторами (общими и специфическими), а также нет корреляции между переменными одного фактора и переменными других факторов», это не универсальные предположения, которые делают аналитики факторов, хотя порой это либо условие (либо приближение) из этого) может быть желательно. Последний, когда он имеет место, он известен как «простая структура».
Есть еще одно условие, которое иногда рассматривается как «предположение»: чтобы корреляции нулевого порядка (ванильные) среди входных переменных не были затоплены большими частичными корреляциями. В двух словах это означает, что отношения должны быть сильными для одних пар и слабыми для других; в противном случае результаты будут «грязными». Это связано с желательностью простой структуры и фактически может быть оценено (хотя формально не «проверено») с использованием статистики Кайзера-Мейера-Олкина или КМО. Значения КМО около 0,8 или 0,9 обычно считаются очень многообещающими для результатов анализа информативных факторов, в то время как КМО около 0,5 или 0,6 гораздо менее перспективны, а значения ниже 0,5 могут побудить аналитика пересмотреть свою стратегию.
источник
Предположения, лежащие в основе исследовательского факторного анализа:
• Интервал или уровень отношения измерений
• Случайная выборка
• Отношение между наблюдаемыми переменными является линейным
• Нормальное распределение (каждая наблюдаемая переменная)
• Двустороннее нормальное распределение (каждая пара наблюдаемых переменных)
• Многофакторная нормальность
Выше из файл SAS
источник