Исходя из этого вопроса : представьте, что вы хотите проверить различия в центральной тенденции между двумя группами (например, мужчинами и женщинами) по 5-балльному пункту Лайкерта (например, удовлетворенность жизнью: неудовлетворен удовлетворенным). Я думаю, что критерий Стьюдента был бы достаточно точным для большинства целей, но тест начальной загрузки различий между средними значениями в группе часто давал бы более точную оценку доверительных интервалов. Какой статистический тест вы бы использовали?
t-test
ordinal-data
likert
scales
Джером англим
источник
источник
Ответы:
Clason & Dormody обсудили вопрос статистического тестирования предметов Likert ( анализ данных, измеренных отдельными предметами типа Likert ). Я думаю, что загрузочный тест в порядке, когда два распределения выглядят одинаково (колоколообразная и одинаковая дисперсия). Тем не менее, тест для категориальных данных (например, тренд или критерий Фишера, или порядковая логистическая регрессия) также был бы интересен, поскольку он позволяет проверять распределение ответов по категориям элементов, см. Книгу Agresti по анализу категориальных данных (глава 7 о моделях Logit для полиномиальные ответы ).
Помимо этого, вы можете представить себе ситуации, когда t-тест или любые другие непараметрические тесты не пройдут, если распределение ответов сильно разбалансировано между двумя группами. Например, если все люди из группы A отвечают 1 или 5 (в равной пропорции), тогда как все люди в группе B отвечают 3, то в итоге вы получаете одинаковое среднее значение внутри группы, и тест не имеет никакого значения, хотя в этом случае предположение о гомоскедастичности в значительной степени нарушается.
источник
В зависимости от размера рассматриваемого набора данных, тест перестановки может быть предпочтительнее, чем начальная загрузка, поскольку он может быть в состоянии обеспечить точную проверку гипотезы (и точную CI).
источник
ИМХО, вы не можете использовать t-тест для шкал Лайкерта. Шкала Лайкерта является порядковой и «знает» только об отношениях значений переменной: например, «полностью неудовлетворенный» хуже, чем «каким-то образом неудовлетворенный». С другой стороны, t-критерий должен вычислять средние и другие значения и, следовательно, требовать данные интервала. Вы можете отобразить баллы по шкале Лайкерта на интервальные данные («полностью неудовлетворенный» равен 1 и т. Д.), Но никто не гарантирует, что «полностью неудовлетворенный» - это то же расстояние, что и «как-то неудовлетворенный», так как «как-то неудовлетворенный» - от «ни, ни». Кстати: в чем разница между «полностью недовольным» и «каким-то недовольным»? Итак, в конце концов, вы проведете t-тест на закодированных значениях ваших порядковых данных, но это просто не имеет никакого смысла.
источник
Если каждый элемент в вопроснике является порядковым, и я не думаю, что этот вопрос можно оспорить, учитывая, что нет способа узнать, является ли количественная разница между «полностью согласен» и «согласен» такой же, как и между « категорически не согласен "и" не согласен ", тогда почему суммирование всех этих порядковых шкал уровня дает значение, которое разделяет свойства истинных данных уровня интервала?
Например, если мы интерпретируем результаты инвентаризации депрессии, не имеет смысла (по крайней мере для меня) говорить, что человек с оценкой «20» вдвое депрессивнее, чем человек с оценкой « 10" . Это связано с тем, что каждый пункт в вопроснике измеряет не реальные различия в уровнях депрессии (при условии, что депрессия является стабильным, интенсивным, органическим расстройством), а скорее субъективную оценку согласия человека с определенным утверждением. Отвечая на вопрос: «Как вы думаете, насколько депрессивно ваше настроение по шкале 1-4, 1 - очень подавленный, а 4 - вообще не подвержен депрессии», как я узнаю, что субъективная оценка одного респондента, равная 1, совпадает с оценкой другого респондента? ? Или как я могу узнать, является ли разница между 4 и 3 такой же, как разница между 3 и 4 с точки зрения человека? Текущий уровень депрессии. Если мы не можем знать ничего из этого, то нет смысла рассматривать суммирование всех этих порядковых элементов как данные уровня интервала. Даже если данные действительно образуют нормальное распределение, я не думаю, что уместно рассматривать различия между оценками как данные уровня интервала, если они были вычислены путем суммирования всех ответов на likert-элементы. Нормальное распределение данных просто означает, что ответы, вероятно, представляют большую часть населения; это не означает, что значения, полученные из инвентаризаций, имеют общие свойства данных интервального уровня. Я думаю, что целесообразно рассматривать различия между оценками как данные уровня интервала, если они были вычислены путем суммирования всех ответов на likert-элементы. Нормальное распределение данных просто означает, что ответы, вероятно, представляют большую часть населения; это не означает, что значения, полученные из инвентаризаций, имеют общие свойства данных интервального уровня. Я думаю, что целесообразно рассматривать различия между оценками как данные уровня интервала, если они были вычислены путем суммирования всех ответов на likert-элементы. Нормальное распределение данных просто означает, что ответы, вероятно, представляют большую часть населения; это не означает, что значения, полученные из инвентаризаций, имеют общие свойства данных интервального уровня.
Мы должны быть осторожны в поведенческих науках о том, как мы используем статистику, чтобы говорить с латентными переменными, которые мы изучаем, поскольку, поскольку не существует прямого способа измерения этих гипотетических конструктов, возникают значительные проблемы, когда мы пытаемся количественно определить их предмет. параметрическим испытаниям. Опять же, просто потому, что мы присвоили значения для набора ответов, не означает, что различия между этими значениями имеют смысл.
источник
Модель отношения пропорциональных шансов лучше, чем критерий Стьюдента для шкалы Лайкерта.
источник
Я попытаюсь объяснить модель пропорционального отношения шансов в этом контексте, поскольку она была предложена и указана как минимум в 2 ответах на этот вопрос.
Балльная оценка модели пропорциональных шансов эквивалентна критерию суммы рангов Уилкоксона.
Точнее говоря, статистика тестов на отсутствие эффекта от одного дихотомического ковариата в модели пропорциональной кумулятивной логистической регрессии (McCullagh 1980) для порядкового результата была показана равной статистике теста ранговой суммы Уилкоксона. (Доказательство в Расширении критерия Уилкоксона Ранка-Суммы для сложных выборочных данных обследования .)
Так же, как и критерий суммы рангов Уилкоксона, этот тест определяет, были ли взяты две выборки из разных распределений, независимо от ожидаемых значений.
Этот тест недействителен, если вы хотите только определить, были ли взяты две выборки из распределений с разными ожидаемыми значениями, подобно критерию ранговой суммы Уилкоксона.
источник