У меня есть набор данных из опроса клиентов, я хочу развернуть статистический тест, чтобы увидеть, есть ли разница в значении между продуктом 1 и продуктом 2.
Вот набор данных отзывов клиентов.
Оценка от очень плохой, плохой, хорошо, хорошо, до очень хорошо.
customer product1 product2
1 very good very bad
2 good bad
3 okay bad
4 very good okay
5 bad very good
6 okay good
7 bad okay
8 very good very bad
9 good good
10 good very good
11 okay okay
12 very good good
13 good good
14 very good okay
15 very good okay
Какие методы я должен использовать, чтобы увидеть, есть ли разница между этими двумя продуктами?
Ответы:
Для ранжирования разными судьями можно использовать тест Фридмана. http://en.wikipedia.org/wiki/Friedman_test
Вы можете преобразовать оценки из очень плохого в очень хорошее в числовые значения -2, -1, 0, 1 и 2. Затем поместите данные в длинную форму и примените friedman.test с заказчиком в качестве фактора блокировки:
Ранжирование различий между двумя продуктами не является значительным.
Редактировать:
Ниже приводится результат регрессии:
источник
Одна возможность - вы можете использовать тест знака.
Это основывается на сравнении внутри клиентов, чтобы увидеть, повысился ли их рейтинг от product1 до product2, снизился или остался прежним (при тесте биномиального знака предполагается, что вы получаете только результаты «вверх» или «вниз», но есть несколько распространенных способов сближения внутри парных связей, таких как «клиент 9
good
против»good
).Один из распространенных подходов состоит в том, чтобы исключить привязанные рейтинги, такие как 9 клиентов (так, чтобы сделать вывод об относительной пропорции различий между населением "вверх-вниз", предполагая случайную выборку клиентов).
В этом случае у вас было 4 клиента, которые дали более высокие оценки для второго продукта, 8, которые дали более низкие оценки, и три, которые дали то же самое.
В этом случае с вашими данными, 4 из одного знака и 8 из другого, двухсторонний тест знака не приблизится к отклонению на каком-либо типичном уровне значимости. Вот анализ в R:
Значение р довольно высокое.
Теперь, если вы готовы присвоить оценки (или даже просто ранжировать) относительным размерам изменений в рейтингах в каждой паре, то есть, будет ли изменение «хорошо» на «плохо» клиента 2 больше, меньше или то же самое, что от «очень хорошо» для клиента 4 до «хорошо» и т. д., то вы можете применить тест с ранговыми знаками для этих рангов или выполнить парный тест перестановки для назначенных баллов (хотя вы также должны иметь дело с тяжелыми связями, это можно легко сделать, переставляя наборы рангов или баллов, которые у вас есть).
Вы можете рассмотреть и другие варианты, но я не думаю, что выбор анализа изменит результат; Я думаю, что все они не смогут отклонить на типичных уровнях значимости этих данных.
источник
very bad
наgood
полностью идентичен переходу сbad
наvery good
, вы не сможете заявить об этом после того, как закодируете их в виде чисел ... (ctd)У вас есть зависимые порядковые данные. Вы должны использовать критерий Wilcoxon со знаком ранга, чтобы проверить существенную разницу между обоими продуктами для всех клиентов.
Но, учитывая вышеприведенные данные, критерий рангового ранга Уилкоксона не дает значительных результатов.
источник
good
,bad
) или (very good
,okay
) к набору подписанных рангов, поскольку это сделало бы предположения, сделанные на этом пути, более очевидными.Используйте парный т- тест
Пока у вас достаточно рейтингов (достаточно 15, и я был бы рад даже меньшему количеству) и некоторой вариации различий в рейтингах, использование парного t- теста не представляет никакой проблемы . Затем вы получите оценки, которые очень легко интерпретировать - средние оценки по 1–5 числовой шкале + их различие (между продуктами).
Код R
Это очень легко сделать в R:
Сначала давайте проверим средние оценки:
И т- тест дает нам:
-значение 0,13, что делает не сильно предположить , что продукты оцениваются по- разному, несмотря на очевидное различие 0,8 (но не отметить достаточно доверительный интервал - нам действительно нужно больше данных).p
Поддельные данные?
Любопытно и неожиданно, непарный t- тест дает более низкое p- значение.
Это говорит о том, что данные примера являются поддельными. Для реальных данных можно ожидать (довольно высокой) положительной корреляции между рейтингами одного и того же клиента. Здесь корреляция отрицательна (хотя статистически значимо не так):
Потерянная информация
Когда не все клиенты оценили оба продукта (т.е. несбалансированные данные), лучшим подходом является использование модели смешанных эффектов:
Давайте сначала преобразуем данные в числовую форму:
И преобразовать его в «длинную» форму:
И, наконец, подгоняем модель со смешанными эффектами к клиенту как случайный эффект:
Значение составляет 0,0834. Обычно для сбалансированных данных будет почти идентичен к р -значение от сопряженного т -test. Здесь оно ближе к p- значению непарного t- критерия из-за отрицательной корреляции. Обратите внимание, что дисперсия для эффекта клиента (случайный перехват) практически равна нулю. Это редко случается с реальными данными.p
Резюме
В итоге используйте парный t -test. Затем вы получите оценки, которые легко интерпретировать (простые числовые средние).
Если не все клиенты оценили оба продукта, используйте вместо этого модель смешанных эффектов. (Это даст примерно те же результаты , как и парные т -test , когда они имеют все оценили как продукты, так что вы можете также использовать его всегда.)
источник