Сумма рейтинговых баллов по сравнению с оценочными факторными баллами?

12

Мне было бы интересно получить предложения о том, когда использовать « факторные баллы » над простой суммой баллов при построении шкал. Т.е. «уточненные» над «неочищенными» методами оценки фактора. Из DiStefano et al. (2009; pdf ), акцент добавлен:

Существует два основных класса методов вычисления коэффициента: уточненный и не уточненный. Не уточненные методы - это относительно простые кумулятивные процедуры для предоставления информации о размещении людей в распределении факторов. Простота поддается некоторым привлекательным особенностям, то есть нерафинированные методы легко вычисляются и легко интерпретируются. Усовершенствованные методы вычислений позволяют получить факторные оценки с использованием более сложных и технических подходов. Они являются более точными и сложными, чем не уточненные методы, и дают оценки, которые являются стандартизированными оценками.

На мой взгляд, если цель состоит в том, чтобы создать шкалу, которую можно использовать в разных исследованиях и ситуациях, тогда имеет смысл использовать простую сумму или среднюю оценку всех элементов шкалы. Но давайте скажем, что цель состоит в том, чтобы оценить эффекты лечения программы, и важный контраст находится в выборке - лечение против контрольной группы. Есть ли какая-либо причина, по которой мы могли бы предпочесть, чтобы коэффициенты факторов соответствовали суммам или средним?

Чтобы быть конкретными об альтернативах, возьмите этот простой пример:

library(lavaan)
library(devtools)

# read in data from gist ======================================================
# gist is at https://gist.github.com/ericpgreen/7091485
# this creates data frame mydata
  gist <- "https://gist.github.com/ericpgreen/7091485/raw/f4daec526bd69557874035b3c175b39cf6395408/simord.R"
  source_url(gist, sha1="da165a61f147592e6a25cf2f0dcaa85027605290")
  head(mydata)
# v1 v2 v3 v4 v5 v6 v7 v8 v9
# 1  3  4  3  4  3  3  4  4  3
# 2  2  1  2  2  4  3  2  1  3
# 3  1  3  4  4  4  2  1  2  2
# 4  1  2  1  2  1  2  1  3  2
# 5  3  3  4  4  1  1  2  4  1
# 6  2  2  2  2  2  2  1  1  1

# refined and non-refined factor scores =======================================
# http://pareonline.net/pdf/v14n20.pdf

# non-refined -----------------------------------------------------------------
  mydata$sumScore <- rowSums(mydata[, 1:9])
      mydata$avgScore <- rowSums(mydata[, 1:9])/9
  hist(mydata$avgScore)

# refined ---------------------------------------------------------------------
  model <- '
            tot =~ v1 + v2 + v3 + v4 + v5 + v6 + v7 + v8 + v9
           '
  fit <- sem(model, data = mydata, meanstructure = TRUE,
             missing = "pairwise", estimator = "WLSMV")
  factorScore <- predict(fit)
  hist(factorScore[,1])
Эрик Грин
источник
Я удалил «вмешательства» из названия, чтобы сделать вопрос более общим и потому, что вмешательства, возможно, не имеют уникального, специфического отношения к различию между двумя типами расчета конструкции. Пожалуйста, отзовитесь, если вы не согласны.
ttnphns
1
They are more exactЭтот дополнительный акцент не должен отвлекать нас от того факта, что даже факторные оценки неизбежно являются неточными («недостаточно определенными»).
ttnphns
Смотрите также этот похожий вопрос: stats.stackexchange.com/q/31967/3277 .
ttnphns
Я думаю, что «вмешательства» актуальны как особый вариант использования, но это не обязательно должно быть в названии. Я выделил ключевой вопрос в этом вопросе. Что касается акцента на «более точном», мне было любопытно подумать об этом моменте, учитывая то наблюдение, которое вы делаете по поводу неопределенности показателей факторов. Спасибо за ссылки на другие вопросы.
Эрик Грин
"more exact", Из линейно рассчитанных коэффициентов факторов метод регрессии является наиболее «точным» в том смысле, что «наиболее коррелирует с неизвестными значениями истинного коэффициента». Так что да, точнее (в рамках линейного алгебраического подхода), но не совсем точно.
ttnphns

Ответы:

6

Я сам боролся с этой идеей в некоторых текущих проектах. Я думаю, что вы должны спросить себя, что здесь оценивается. Если подходит однофакторная модель, то оценки факторов оценивают скрытый фактор. Прямая сумма или среднее ваших переменных манифеста оценивает что-то другое, если только каждое наблюдение не загружается одинаково на фактор, и уникальности также одинаковы. И это что-то еще, вероятно, не представляет большого теоретического интереса.

Поэтому, если подходит однофакторная модель, вам, вероятно, рекомендуется использовать факторные оценки. Я принимаю ваше мнение о сопоставимости между исследованиями, но в рамках конкретного исследования я думаю, что показатели факторов имеют большое значение для них.

Интересным становится случай, когда однофакторная модель не подходит, либо потому, что применяется двухфакторная модель (или выше), либо потому, что ковариационная структура является более сложной, чем предсказывает факторная модель. Для меня вопрос заключается в том, относится ли прямая сумма переменных к чему-либо реальному, Это особенно верно, если данные имеют более одного измерения. На практике часто случается, что у вас есть несколько связанных переменных (возможно, элементов в опросе), причем одна или две из них сильно отличаются от других. Вы можете сказать: «К черту это» и взять среднее из всего, независимо от того, что это значит. Или вы можете пойти с факторами. Если вы подходите к однофакторной модели, то, как правило, происходит то, что факторный анализ будет уменьшать вес менее полезных переменных (или, по крайней мере, тех переменных, которые действительно принадлежат второму факторному баллу). По сути, он определяет их как принадлежащие к другому измерению и игнорирует их.

Таким образом, я считаю, что коэффициент фактора может сортировать данные, чтобы дать нечто более одномерное, чем вы начали. Но у меня нет ссылки на это, и я все еще пытаюсь выяснить в моей собственной работе, нравится ли мне этот подход. Для меня большая опасность переоснащение, когда вы вкладываете баллы в другую модель с теми же данными. Оценки уже являются ответом на вопрос об оптимизации, так что же остается после анализа? Я ненавижу думать.

Но в конце концов, имеет ли смысл сумма или сумма переменных, если что-то вроде однофакторной модели не применимо?

Многие из этих вопросов не возникли бы, если бы люди разработали лучшие весы для начала.

Placidia
источник
Я ценю ваши комментарии, @Placidia. Вы вносите некоторую ясность, напоминая нам о большем беспорядке! Я думаю, что это интересный момент для рассмотрения: «Если факторная модель подходит, тогда коэффициенты фактора оценивают скрытый фактор. Прямая сумма или среднее из ваших явных переменных оценивает что-то другое, если только каждое наблюдение не будет одинаково нагружать фактор и уникальности также одинаковы. И что-то еще, вероятно, не представляет большого теоретического интереса ».
Эрик Грин
+1 за очень вдумчивый ответ. Пару мыслей, которые нужно добавить: 1) в отношении сопоставимости между исследованиями, важно признать, что в отличие от нагрузок компонентов, которые могут немного измениться в зависимости от переменных, включенных / исключенных из модели, нагрузки общих факторов являются оценками параметров. Впоследствии они должны воспроизводиться (в пределах ошибки выборки) от исследования к исследованию, и, следовательно, также должны учитываться коэффициенты. 2) Если вас беспокоит использование факторных оценок, вы можете посмотреть на показатели детерминированности и то, насколько хорошо ваши корреляции между факторами и показателями отражают скрытые корреляции ...
jsakaluk
1
... поскольку я думаю, что это стратегия, обсуждаемая в DiStefanno et. и др. бумаги, чтобы оценить, можно ли доверять оценкам фактора. И, наконец, 3) если ваша цель, как описывает Плацидия, состоит в том, чтобы проанализировать нечто, в значительной степени одномерное, вы могли бы рассмотреть подход бифакторного анализа, который, как я понимаю, сначала извлекает общий фактор, на который загружается каждая переменная, а затем последующий ортогональный факторы извлекаются для подмножеств переменных, которые якобы отражают наиболее важные различимые факторы, помимо общего измерения, связывающего все переменные вместе.
jsakaluk
Плацидия, в последнем редактировании твоего ответа ты постоянно ограничиваешь себя выражением one-factor model. Мне просто интересно, почему. Вы говорите, что в двухфакторной модели фактор больше не оценивается estimate the latent factor? Почему так? А также, как вы определяете «однофакторную модель» в контексте разрабатываемого вопросника (вероятный контекст вопроса): является ли вопросник однофакторным / масштабным или что каждый включенный элемент считается строго принадлежащим одному фактору? /масштаб? Пожалуйста, не могли бы вы сделать это более понятным?
ttnphns
Я хотел избежать потенциального недоразумения. Если вы верите в двухфакторную модель, предположительно использование итоговых итогов будет за столом. Вам нужно два резюме для двух измерений в данных. Я хотел уточнить, что мой ответ был о выборе между суммарной статистикой и факторной оценкой однофакторной модели. Я утверждаю, что однофакторная оценка может быть полезной, даже если модель неверна. Предложение @ jsakaluk о подборе многофакторной модели и выборе первого фактора также возможно, а в некоторых случаях может быть лучше.
Плацидия
4

Суммирование или усреднение элементов, загруженных общим фактором, является традиционным способом подсчёта значения контраста (конструкции, представляющей фактор). Это простейшая версия «грубого метода» вычисления коэффициентов вычислений ; Суть метода заключается в использовании факторных нагрузок в качестве весов баллов. В то время как усовершенствованные методы для вычисления баллов используют специально оцененные коэффициенты баллов (рассчитанные из нагрузок) в качестве весов.

Этот ответ не всегда «предлагает о том, когда использовать [уточненные] коэффициенты по сравнению с простой суммой баллов по элементам», что является обширной областью, но фокусируется на показе некоторых конкретных очевидных последствий, связанных с предпочтением одного способа расчета конструкции над другим путь.

Fb1b2F

s1=b1r11+b2r12

s2=b1r12+b2r22

s1s2r12bbb

rr11r22

b1=s2r12s1r1221

b2=s1r12s2r1221

b1b2=(r12+1)(s1s2)r1221.

bsr12b1b2

введите описание изображения здесь

введите описание изображения здесь

s1s2=0bs1s2b1b2r12

b

s1=.70s2=.45.25

с. Если они сильно коррелируют, более слабый загруженный элемент является младшим дубликатом другого. Какова причина считать этот более слабый индикатор / симптом в присутствии его более сильного заменителя? Нет особых причин. И поправки на это учитываются (в то время как простое суммирование - нет). Обратите внимание, что в многофакторной анкете «более слабый загруженный элемент» часто является элементом другого фактора, загруженным выше; в то время как в настоящем факторе этот пункт становится сдержанным, как мы видим сейчас, при вычислении баллов фактора, - и это служит ему правильно.

б. Но если предметы, загруженные, как и прежде, неравномерно, не так сильно коррелируют, то они являются для нас разными индикаторами / симптомами. И можно посчитать «дважды», то есть просто суммировать. В этом случае факторные оценки пытаются учесть более слабый элемент в той степени, в которой его нагрузка все еще позволяет, поскольку он является другим воплощением фактора.

а. Два элемента также могут учитываться дважды, то есть просто суммироваться, когда они имеют одинаковые, достаточно высокие нагрузки по коэффициенту, независимо от корреляции между этими элементами. (Факторные оценки добавляют больше веса к обоим элементам, когда они коррелируют не слишком тесно, однако веса равны.) Кажется вполне разумным, что мы обычно допускаем или допускаем довольно дублирующие элементы, если они все сильно загружены. Если вам это не нравится (иногда вы можете захотеть), вы всегда можете удалить дубликаты фактора вручную.

введите описание изображения здесь

Таким образом, при вычислении (уточненных) показателей факторов (по крайней мере, методом регрессии) очевидны интриги «ладить / выталкивать» среди переменных, составляющих конструкцию, в их влиянии на показатели . Столь же сильные показатели терпят друг друга, как и не очень сильные, не сильно коррелированные. «Заткнись» происходит от более слабого индикатора, сильно коррелирующего с более сильными индикаторами. Простое сложение / усреднение не имеет такой интриги «выталкивать слабый дубликат».

Пожалуйста, смотрите также этот ответ, который предупреждает, что теоретически фактор - это скорее «сущность внутри», а не совокупность или куча «его» индикативных явлений. Поэтому слепое суммирование пунктов - не принимая во внимание ни их нагрузки, ни их взаимосвязи - потенциально проблематично. С другой стороны, фактор, как забито, может быть лишь некоторой суммой его элементов, и поэтому все о лучшем понимании весов в сумме.


Давайте также взглянем на недостатки грубого или суммирующего метода в более общем и абстрактном смысле .

ba

F^iiFiX1X2a1a2FUb

F^i=b1X1i+b2X2i=b1(Fi+U1i)+b2(Fi+U2i)=(b1+b2)Fi+b1U1i+b2U2i

b1U1i+b2U2iF^iFiUF^Fbvar[b1U1i+b2U2i]F^FbaXF^F

abFF^

F^i=a1X1i+a2X2i= ... =(a1+a2)Fi+a1U1i+a2U2i

baaa

ttnphns
источник
Спасибо, @ttnphns, за полезный ответ. Для меня имеет смысл, что элементы с примерно одинаковыми нагрузками могут быть просто суммированы (а). К сожалению, я не думаю, что когда-либо сталкивался с ситуацией в моей работе, когда при использовании существующей шкалы, которая предположительно является одномерной, я обнаружил, что предметы имеют одинаковую нагрузку.
Эрик Грин
Поэтому меня особенно заинтересовало ваше объяснение ситуации, когда нагрузки различаются, и предложение изучить межпунктовые корреляции. Мне интересно знать, есть ли у вас практические правила для «сильных» (c) / «не сильных» корреляций (b) или «достаточно высоких» нагрузок в (a).
Эрик Грин
1
Наконец, я отмечу, что фоном этого вопроса является подавляющая дисциплинарная норма (по крайней мере, в психологии) для использования «проверенных» шкал, которые требуют простых сумм (средних), даже при введении шкалы для новой ненормированной популяции. Часто целью является сравнение между выборками (даже если это необоснованно), что делает простые суммы общим подходом.
Эрик Грин
Интервенционные исследования, на мой взгляд, представляют собой интересный пример использования, поскольку сравнение интересов проводится в рамках выборки. Мне кажется, что мы больше заботимся о величине лечебного эффекта, чем о «сырых» баллах обеих групп, особенно при использовании шкалы вне популяции, используемой для разработки / нормирования шкалы. Если в некоторых ситуациях показатели факторов «лучше», то, похоже, стоит отказаться от простого подхода в пользу подхода, который имеет более концептуальный смысл, зная, что в конечном итоге мы просто хотим посмотреть на величину эффекта лечения.
Эрик Грин
1
(продолжение) Use "validated" scalesсамо по себе не требует обязательно простых сумм: если валидация была хорошей (репрезентативная большая выборка, хорошие корреляции, правильное количество факторов, правильная подгонка и т. д.), то вычисленные коэффициенты (их коэффициенты) могут быть приняты как нормативные веса для использования в новых популяциях. В этом отношении я не вижу никакого преимущества в простой сумме.
ttnphns