В отличие от анализа основных компонентов, решения для моделей факторного анализа не обязательно являются вложенными. То есть нагрузки (например) для первого фактора не обязательно будут идентичными, когда извлекается только первый фактор, по сравнению с первыми двумя факторами.
Имея это в виду, рассмотрим случай, когда у вас есть набор переменных манифеста, которые сильно коррелированы и (благодаря теоретическому знанию их содержания) должны управляться одним фактором. Представьте, что анализ поисковых факторов (по метрике, которую вы предпочитаете: параллельный анализ, график осыпей, собственные значения> 1 и т. Д.) Настоятельно предполагает, что есть фактора: большой первичный фактор и небольшой вторичный фактор. Вы заинтересованы в использовании переменных манифеста и факторного решения для оценки (то есть получения значений факторов) значений участников для первого фактора. В этом случае было бы лучше:
- Подберите фактор-модель, чтобы извлечь только фактор и получить оценки факторов (и т. Д.), Или
- Подберите факторную модель, чтобы извлечь оба фактора, получить оценки факторов для факторов, но отбросить / игнорировать оценки для второго фактора?
Почему лучше ? Почему? Есть ли какие-либо исследования по этому вопросу?
источник
Is is always better to extract more factors when they exist?
не очень понятно. Всегда лучше извлечь столько, сколько существует. Недооценка или переоснащение обоих искажают «истинную» скрытую структуру из-за многомерного и не вложенного характера упомянутого вами анализа. Проблема в том, что мы не знаем точно, сколько факторов содержится в наших данных. И есть ли у этих данных столько же, сколько у населения.Ответы:
Проблема, на которую вы ссылаетесь, - это тема «приблизительной одномерности» при создании инструментов психологического тестирования, которая довольно часто обсуждалась в литературе в 80-х годах. Вдохновение существовало в прошлом, потому что практики хотели использовать для своих изделий традиционные модели теории отклика предметов (IRT), и в то время эти модели IRT были исключительно ограничены измерением одномерных признаков. Таким образом, тестирование многомерности должно было стать помехой, которую (надеюсь) можно было бы избежать или игнорировать. Это также привело к созданию методов параллельного анализа в факторном анализе (Drasgow and Parsons, 1983) и методах DETECT.
Последствия игнорирования дополнительных признаков / факторов, помимо очевидной подгонки неверной модели к данным (т. Е. Игнорирования информации о потенциальном несоответствии модели; хотя это, конечно, может быть тривиальным), состоят в том, что оценки признаков для доминирующего фактора будут смещены и поэтому менее эффективен. Эти выводы, конечно, зависят от того, как свойства дополнительных признаков (например, соотносятся ли они с первичным измерением, имеют ли они сильные нагрузки, сколько существует перекрестных нагрузок и т. Д.), Но общая тема заключается в том, что вторичные оценки для получения начальных признаков будет менее эффективным. См. Технический отчет здесь для сравнения между неправильно подобранной одномерной моделью и двухфакторной моделью; технический отчет, кажется, именно то, что вы после.
С практической точки зрения, использование информационных критериев может быть полезным при выборе наиболее оптимальной модели, а также статистики соответствия модели в целом (RMSEA, CFI и т. Д.), Поскольку последствия игнорирования многомерной информации негативно влияют на общее соответствие данных. , Но, конечно, общее соответствие модели является лишь одним из признаков использования неподходящей модели для имеющихся данных; вполне возможно, что используются неправильные функциональные формы, такие как нелинейность или отсутствие монотонности, поэтому всегда следует проверять соответствующие элементы / переменные.
Смотрите также :
Драсгов Ф. и Парсонс К.К. (1983). Применение моделей одномерной теории отклика элементов к многомерным данным. Прикладные психологические измерения, 7 (2), 189-199.
Драсгов Ф. и Лиссак Р.И. (1983). Модифицированный параллельный анализ: процедура для изучения скрытой размерности ответов дихотомически оцениваемых элементов. Журнал прикладной психологии, 68, 363-373.
Левент Кириши, Це-чи Хсу и Лифа Ю (2001). Устойчивость программ оценки параметров изделия к предположениям об одномерности и нормальности. Прикладные психологические измерения, 25 (2), 146-162.
источник
Если вы действительно не хотите использовать второй фактор, вы должны просто использовать однофакторную модель. Но я озадачен вашим замечанием, что нагрузки для первого фактора изменятся, если вы будете использовать второй фактор.
Далее для объяснения эффектов поворотов. Я не очень хорош в рисовании, поэтому я постараюсь убедить вас, используя слова. Я предполагаю, что ваши данные (приблизительно) нормальны, так что оценки факторов также приблизительно нормальны. Если вы извлекаете один фактор, вы получаете одномерное нормальное распределение, если вы извлекаете два фактора, вы получаете двумерное нормальное распределение.
Плотность двумерного распределения выглядит примерно как шляпа, но точная форма зависит от масштабирования, а также от коэффициента корреляции. Итак, давайте предположим, что каждый из двух компонентов имеет единичную дисперсию. В некоррелированном случае вы получите хорошее сомбреро с кривыми уровня, которые выглядят как круги. Картинка здесь . Корреляция «раздавливает» шляпу, так что она больше похожа на шляпу Наполеона .
Давайте предположим, что ваш исходный набор данных имел три измерения, и вы хотите извлечь из этого два фактора. Давайте также придерживаться нормальности. В этом случае плотность является четырехмерным объектом, но кривые уровня являются трехмерными и, по крайней мере, могут быть визуализированы. В некоррелированном случае кривые уровня являются сферическими (как футбольный мяч). При наличии корреляции кривые уровня снова будут искажены в виде футбольного мяча, вероятно, недостаточно накачанного, так что толщина в швах будет меньше, чем толщина в других направлениях.
Если вы извлекаете два фактора с помощью PCA, вы полностью сглаживаете футбольный мяч в виде эллипса (и проецируете каждую точку данных на плоскость эллипса). Не повернутый первый фактор соответствует длинной оси эллипса, второй фактор перпендикулярен ему (т. Е. Короткая ось). Затем вращение выбирает систему координат в этом эллипсе , чтобы удовлетворить некоторые другие удобные критерии.
Если вы извлекаете только один фактор, вращение невозможно, но вам гарантировано, что извлеченный фактор PCA соответствует длинной оси эллипса.
источник
fa()
Например, R's не использовал их в течение многих лет. Другие методы приведут к не вложенным решениям, что легко проверить с помощью программного обеспечения и набора данных FA. Для сопоставимости, вы можете считать оба решения необращенными. FWIW, я знаком с идеей сферических и эллиптических распределений MVN.Почему бы вам не использовать что-то вроде lavaan или MPlus для запуска двух моделей (одномерная модель и двумерная модель, выровненные по вашим результатам EFA) и сравнить относительные и абсолютные индексы соответствия разных моделей (то есть, информационные критерии - AIC и BIC, RMSEA, SRMR, CFI / TLI)? Обратите внимание, что если вы пойдете по этому пути, вы не захотите использовать PCA для EFA, а скорее основные факторы. Кто-то, действительно заинтересованный в измерении, включил бы CFA в модель полного структурного уравнения.
Изменить: подход, который я прошу вас рассмотреть, это больше выяснить, сколько скрытых переменных на самом деле объясняют набор элементов. Если вы хотите получить наилучшую оценку более крупного фактора, я бы проголосовал за использование коэффициентов из модели CFA с лучшей подгонкой, в зависимости от того, что это такое.
источник