Групповые различия по пятибалльной шкале Лайкерта

22

Исходя из этого вопроса : представьте, что вы хотите проверить различия в центральной тенденции между двумя группами (например, мужчинами и женщинами) по 5-балльному пункту Лайкерта (например, удовлетворенность жизнью: неудовлетворен удовлетворенным). Я думаю, что критерий Стьюдента был бы достаточно точным для большинства целей, но тест начальной загрузки различий между средними значениями в группе часто давал бы более точную оценку доверительных интервалов. Какой статистический тест вы бы использовали?

Джером англим
источник
2
Смежный вопрос: люди часто используют непараметрический критерий Манна-Уитни для такого рода данных. Поскольку существует только пять возможных значений, будет много связанных рангов. Тест Манна-Уитни корректируется для связанных рангов, но работает ли эта корректировка, когда существует огромное количество связей?
Харви Мотульский
5
Возможно, вас заинтересует эта недавняя статья, опубликованная в PARE, « Пункты Лайкерта с пятью точками : t-тест против Манна-Уитни-Уилкоксона» , j.mp/biLWrA .
ЧЛ
Я не уверен, что критерий хи-квадрат также подходит, он проверяет, есть ли какая-либо зависимость между группами и элементами (различное распределение между группами).
pe-pe-rry

Ответы:

12

Clason & Dormody обсудили вопрос статистического тестирования предметов Likert ( анализ данных, измеренных отдельными предметами типа Likert ). Я думаю, что загрузочный тест в порядке, когда два распределения выглядят одинаково (колоколообразная и одинаковая дисперсия). Тем не менее, тест для категориальных данных (например, тренд или критерий Фишера, или порядковая логистическая регрессия) также был бы интересен, поскольку он позволяет проверять распределение ответов по категориям элементов, см. Книгу Agresti по анализу категориальных данных (глава 7 о моделях Logit для полиномиальные ответы ).

Помимо этого, вы можете представить себе ситуации, когда t-тест или любые другие непараметрические тесты не пройдут, если распределение ответов сильно разбалансировано между двумя группами. Например, если все люди из группы A отвечают 1 или 5 (в равной пропорции), тогда как все люди в группе B отвечают 3, то в итоге вы получаете одинаковое среднее значение внутри группы, и тест не имеет никакого значения, хотя в этом случае предположение о гомоскедастичности в значительной степени нарушается.

хл
источник
Статья Clason and Dormody выглядит хорошо. Ваши комментарии о распределении ответов интересно рассмотреть. Я согласен, что различия в распределениях могут представлять интерес. Но если бы вас интересовало только то, отличаются ли группы населения, не обязательно имеет значение, какие распределения привели к такому равенству.
Джером Энглим
В этом случае вы предполагаете, что ваша шкала Лайкерта (другими словами, воспринимаемое различие между, например, сильно удовлетворенным и "просто" удовлетворенным) ведет себя идеально и воспринимается как имеющее одинаковое значение в обеих группах. Таким образом, вы косвенно делаете предположение, что это числовая шкала, но я согласен, что это часто считается таковым в прикладных исследованиях, особенно если участники приезжают из одной и той же страны. Моя цель состояла в том, чтобы просто подчеркнуть перспективу категориального анализа данных, как это обычно бывает в традиции факторного анализа, как в моем ответе на вопрос № 10.
ЧЛ
Я предполагаю, что среднее значение выборки, отвечающей на элемент Лайкерта, как правило, представляет собой значимую сводку позиции группы в базовом измерении. Интересно подумать, когда значение элемента Лайкерта будет систематически меняться между группами. Конечно, эта проблема распространяется не только на элементы Лайкерта, возможно, на любую субъективную процедуру измерения.
Джером Энглим
8

В зависимости от размера рассматриваемого набора данных, тест перестановки может быть предпочтительнее, чем начальная загрузка, поскольку он может быть в состоянии обеспечить точную проверку гипотезы (и точную CI).

russellpierce
источник
4

ИМХО, вы не можете использовать t-тест для шкал Лайкерта. Шкала Лайкерта является порядковой и «знает» только об отношениях значений переменной: например, «полностью неудовлетворенный» хуже, чем «каким-то образом неудовлетворенный». С другой стороны, t-критерий должен вычислять средние и другие значения и, следовательно, требовать данные интервала. Вы можете отобразить баллы по шкале Лайкерта на интервальные данные («полностью неудовлетворенный» равен 1 и т. Д.), Но никто не гарантирует, что «полностью неудовлетворенный» - это то же расстояние, что и «как-то неудовлетворенный», так как «как-то неудовлетворенный» - от «ни, ни». Кстати: в чем разница между «полностью недовольным» и «каким-то недовольным»? Итак, в конце концов, вы проведете t-тест на закодированных значениях ваших порядковых данных, но это просто не имеет никакого смысла.

xmjx
источник
9
... и все же это обычно делается. Стоит отметить одну вещь, и да, это немного педантично, если вы используете один элемент типа Лайкерта, который не является шкалой Лайкерта. Разница значительна (хотя задающий вопрос говорит о предмете Лайкерта, а порядковый номер - это проблема). Шкала Лайкерта является следствием суммирования или усреднения нескольких элементов Лайкерта. Этот подход был разработан специально для того, чтобы компенсировать степень, в которой порядковые данные были на самом деле порядковыми, и сделать его более разумным для использования в интервальной шкале.
Расселпирс
3

Если каждый элемент в вопроснике является порядковым, и я не думаю, что этот вопрос можно оспорить, учитывая, что нет способа узнать, является ли количественная разница между «полностью согласен» и «согласен» такой же, как и между « категорически не согласен "и" не согласен ", тогда почему суммирование всех этих порядковых шкал уровня дает значение, которое разделяет свойства истинных данных уровня интервала?

Например, если мы интерпретируем результаты инвентаризации депрессии, не имеет смысла (по крайней мере для меня) говорить, что человек с оценкой «20» вдвое депрессивнее, чем человек с оценкой « 10" . Это связано с тем, что каждый пункт в вопроснике измеряет не реальные различия в уровнях депрессии (при условии, что депрессия является стабильным, интенсивным, органическим расстройством), а скорее субъективную оценку согласия человека с определенным утверждением. Отвечая на вопрос: «Как вы думаете, насколько депрессивно ваше настроение по шкале 1-4, 1 - очень подавленный, а 4 - вообще не подвержен депрессии», как я узнаю, что субъективная оценка одного респондента, равная 1, совпадает с оценкой другого респондента? ? Или как я могу узнать, является ли разница между 4 и 3 такой же, как разница между 3 и 4 с точки зрения человека? Текущий уровень депрессии. Если мы не можем знать ничего из этого, то нет смысла рассматривать суммирование всех этих порядковых элементов как данные уровня интервала. Даже если данные действительно образуют нормальное распределение, я не думаю, что уместно рассматривать различия между оценками как данные уровня интервала, если они были вычислены путем суммирования всех ответов на likert-элементы. Нормальное распределение данных просто означает, что ответы, вероятно, представляют большую часть населения; это не означает, что значения, полученные из инвентаризаций, имеют общие свойства данных интервального уровня. Я думаю, что целесообразно рассматривать различия между оценками как данные уровня интервала, если они были вычислены путем суммирования всех ответов на likert-элементы. Нормальное распределение данных просто означает, что ответы, вероятно, представляют большую часть населения; это не означает, что значения, полученные из инвентаризаций, имеют общие свойства данных интервального уровня. Я думаю, что целесообразно рассматривать различия между оценками как данные уровня интервала, если они были вычислены путем суммирования всех ответов на likert-элементы. Нормальное распределение данных просто означает, что ответы, вероятно, представляют большую часть населения; это не означает, что значения, полученные из инвентаризаций, имеют общие свойства данных интервального уровня.

Мы должны быть осторожны в поведенческих науках о том, как мы используем статистику, чтобы говорить с латентными переменными, которые мы изучаем, поскольку, поскольку не существует прямого способа измерения этих гипотетических конструктов, возникают значительные проблемы, когда мы пытаемся количественно определить их предмет. параметрическим испытаниям. Опять же, просто потому, что мы присвоили значения для набора ответов, не означает, что различия между этими значениями имеют смысл.

Джастин
источник
1
Если вы довольны суммированием баллов по предметам, вы уже приняли более строгий порядковый уровень измерения. Строго говоря, порядковые меры не могут быть осмысленно добавлены или усреднены (кстати, Стивенсу ясно об этом). После того, как вы это сделаете, обработка итоговых результатов как данных уровня интервала будет вполне разумной.
гала-концерт
0

Модель отношения пропорциональных шансов лучше, чем критерий Стьюдента для шкалы Лайкерта.

Войтек
источник
1
Хотите объяснить свои причины? Я вижу, как такая модель может дать более точную модель наблюдаемых ответов. Тем не менее, в типичных практических исследовательских ситуациях, которые я видел, исследователей интересует, отличаются ли две группы с точки зрения среднего значения (например, сообщила ли обучающая группа более высокую производительность, чем контрольная; была ли удовлетворенность учащихся выше от года к следующему ). Насколько мне известно, модель пропорционального отношения шансов не проверяет этот вопрос точно.
Джером Энглим
0

Я попытаюсь объяснить модель пропорционального отношения шансов в этом контексте, поскольку она была предложена и указана как минимум в 2 ответах на этот вопрос.

Балльная оценка модели пропорциональных шансов эквивалентна критерию суммы рангов Уилкоксона.

Точнее говоря, статистика тестов на отсутствие эффекта от одного дихотомического ковариата в модели пропорциональной кумулятивной логистической регрессии (McCullagh 1980) для порядкового результата была показана равной статистике теста ранговой суммы Уилкоксона. (Доказательство в Расширении критерия Уилкоксона Ранка-Суммы для сложных выборочных данных обследования .)

Так же, как и критерий суммы рангов Уилкоксона, этот тест определяет, были ли взяты две выборки из разных распределений, независимо от ожидаемых значений.

Этот тест недействителен, если вы хотите только определить, были ли взяты две выборки из распределений с разными ожидаемыми значениями, подобно критерию ранговой суммы Уилкоксона.

Марко Лалович
источник