Я использую Принципиальный компонентный анализ (PCA) для создания индекса, необходимого для моего исследования. Мой вопрос заключается в том, как мне создать единый индекс, используя оставшиеся основные компоненты, рассчитанные с помощью PCA.
Например, я решил сохранить 3 основных компонента после использования PCA и вычислил баллы для этих 3 основных компонентов. Каковы подходящие способы создания для каждого респондента единого индекса из этих 3 баллов?
- Уместно ли добавлять 3 вычисленных балла для составного значения?
- Или усреднить 3 балла, чтобы иметь такое значение?
- Или я должен оставить только первый основной компонент (самый сильный) и использовать его счет в качестве индекса?
В качестве альтернативы можно использовать Факторный анализ (ФА), но остается тот же вопрос: как создать единый индекс, основанный на нескольких факторных показателях?
pca
factor-analysis
rating
composite
scale-construction
user179313
источник
источник
Ответы:
Этот ответ является преднамеренно нематематическим и ориентирован на психолога, не являющегося статистиком (скажем), который спрашивает, может ли он суммировать / усреднять факторные оценки различных факторов, чтобы получить оценку «составного индекса» для каждого респондента.
Суммирование или усреднение оценок некоторых переменных предполагает, что переменные принадлежат одному измерению и являются взаимозаменяемыми мерами. (В вопросе «переменные» - это оценки компонентов или факторов , которые ничего не меняют, поскольку они являются примерами переменных.)
(Вы можете заявить: «Я сделаю все данные положительными и вычислю сумму (или среднюю) с чистой совестью, так как выбрал расстояние в Манхэттене», но, пожалуйста, подумайте - имеете ли вы право свободно перемещать источник? Основные компоненты или факторы, например, извлекаются при условии, что данные центрированы по среднему значению, что имеет смысл. Другое происхождение породило бы другие компоненты / факторы с другими показателями. Нет, большую часть времени вы можете не играть с источником - локус «типичного респондента» или «черты нулевого уровня» - как вы хотите играть.)
Подводя итог, можно сказать , что если цель составной конструкции состоит в том, чтобы отразить позиции респондента относительно некоторого «нулевого» или типичного местоположения, но переменные вряд ли вообще коррелируют, какое-то пространственное расстояние от этого источника, а не среднее (или сумма), взвешенное или невзвешенный, должен быть выбран.
Что ж, среднее значение (сумма) будет иметь смысл, если вы решите рассматривать (некоррелированные) переменные как альтернативные способы измерения одного и того же . Таким образом, вы сознательно игнорируете различную природу переменных. Другими словами, вы сознательно оставляете Рис. 2 в пользу Рис. 1: вы «забываете», что переменные независимы. Тогда - делай сумму или среднее. Например, баллы по «материальному благосостоянию» и «эмоциональному благополучию» могут быть усреднены, а также по «пространственному IQ» и «словесному IQ». Этот тип чисто прагматичныйНе одобренные сатистически композиты называются индексами батареи (набор тестов или вопросников, которые измеряют несвязанные вещи или коррелированные вещи, чьи корреляции, которые мы игнорируем, называется батареей). Индексы батареи имеют смысл только в том случае, если баллы имеют одинаковое направление (например, богатство и эмоциональное здоровье рассматриваются как «лучший» полюс). Их полезность за пределами узких специальных настроек ограничена.
Если переменные являются промежуточными отношениями - они значительно коррелируют, но недостаточно сильно, чтобы рассматривать их как дубликаты, альтернативы друг другу, мы часто суммируем (или усредняем) их значения взвешенным способом. Затем эти веса должны быть тщательно спроектированы, и они должны так или иначе отражать корреляции. Это то, что мы делаем, например, с помощью PCA или факторного анализа (FA), где мы специально вычисляем оценки компонентов / факторов. Если ваши переменные уже являются компонентными или факторными показателями (как здесь говорится в вопросе OP) и они коррелированы (из-за наклонного вращения), вы можете подвергнуть их (или непосредственно матрицу загрузки) PCA / FA второго порядка, чтобы найти веса и получить ПК / фактор второго порядка, который будет служить для вас «составным индексом».
Но если ваши оценки компонентов / факторов были некоррелированными или слабо коррелированными, то нет никаких статистических причин ни для того, чтобы их суммировать прямо, ни с помощью определения весов. Вместо этого используйте некоторое расстояние. Проблема с расстоянием состоит в том, что оно всегда положительно: вы можете сказать, насколько нетипичен респондент, но не можете сказать, находится ли он «выше» или «ниже». Но это цена, которую вы должны заплатить за требование одного индекса из мультивалютного пространства. Если вы хотите и отклонение и знак в таком пространстве, я бы сказал, что вы слишком требовательны.
В последнем пункте OP спрашивает, правильно ли принимать за показатель «только индекс» только одну, самую сильную переменную в отношении ее дисперсии (в данном случае 1-го главного компонента). Это имеет смысл, если этот ПК намного сильнее, чем остальные ПК. Хотя кто-то может спросить: «Если он намного сильнее, почему вы не извлекли / сохранили только его единственное?».
источник
Создание составного индекса с использованием PCA из ссылок временного ряда на http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf .
В этой статье на странице 19 авторы упоминают способ создания Нестандартизированного индекса (НСИ) с использованием соотношения вариаций, объясняемых каждым фактором, к общему отклонению, объясняемому выбранными факторами. Этот НСИ был затем нормализован.
источник