Предположим, что две группы, включающие в себя и ранжируют набор из 25 элементов от наиболее до наименее важных. Каковы лучшие способы сравнить эти рейтинги?
Ясно, что можно сделать 25 U-тестов Манна-Уитни, но это приведет к 25 интерпретируемым результатам, что может быть слишком много (и, при строгом использовании, поднимает вопросы множественных сравнений). Мне также не совсем ясно, что ряды удовлетворяют всем предположениям этого теста.
Я также был бы заинтересован в указателях литературы по рейтингу против рейтинга.
Некоторый контекст: Все эти 25 пунктов относятся к образованию, и эти две группы являются разными типами педагогов. Обе группы маленькие.
РЕДАКТИРОВАТЬ в ответ на @ttnphns:
Я не хотел сравнивать общий рейтинг предметов в группе 1 с группой 2 - это было бы константой, как указывает @ttnphns. Но рейтинг в группе 1 и группе 2 будет отличаться; то есть группа 1 может ранжировать пункт 1 выше, чем группа 2.
Я мог сравнить их, пункт за элементом, получить среднее или срединное звание каждого элемента и сделать 25 тестов, но я подумал, есть ли лучший способ сделать это.
источник
the best ways to compare these rankings
- то , что тип разницы м.т. 2 групп , которые Вы хотели бы знать?Ответы:
Резюме
Я делюсь своими мыслями в разделе « Детали ». Я думаю, что они полезны для определения того, чего мы действительно хотим достичь.
Я думаю, что главная проблема здесь в том, что вы не определили, что означает сходство рангов. Поэтому никто не знает, какой метод измерения разницы между рангами лучше.
По сути, это оставляет нам неоднозначно выбирать метод, основанный на догадках.
Что я действительно предлагаю, так это сначала определить цель математической оптимизации. Только тогда мы будем уверены, действительно ли мы знаем, чего хотим.
Если мы этого не сделаем, на самом деле не знаю, чего мы хотим. Мы могли бы почти знать , что мы хотим, но почти зная знать .≠
Мой текст в деталях по сути является шагом к достижению математического определения сходства рангов . Как только мы это сделаем, мы сможем уверенно двигаться вперед, чтобы выбрать лучший метод измерения подобия.
Детали
Основано на одном из ваших комментариев:
Чтобы ответить на это, строго интерпретируя цель:
Но я не думаю, что вы действительно хотите эту строгую интерпретацию. Поэтому я думаю, что вы действительно хотели сказать:
Одно из решений здесь - просто измерить минимальное расстояние редактирования . Т.е. каково минимальное количество правок, которые необходимо выполнить в ранжированном списке группы , чтобы оно стало идентичным таковому для группы b .a b
Редактирование может быть определено как замена двух элементов, а стоимость стоит пунктов в зависимости от того, сколько прыжков необходимо. Таким образом, если элемент 1 необходимо поменять местами с пунктом 3 (чтобы получить идентичные ранги между группами из групп a и b ), тогда стоимость этого редактирования составляет 3 .n 1 3 a b 3
Но подходит ли этот метод? Чтобы ответить на это, давайте посмотрим на это немного глубже:
Предполагается, что стоимость каждого редактирования является линейной по отношению к количеству прыжков. Это правда для нашего домена приложения? Может ли быть так, что логистические отношения более подходят? Или экспоненциальный ?
После того, как мы рассмотрим вышеприведенные пункты и достигнем подходящего показателя сходства между двумя рангами, нам нужно будет задать более интересные вопросы, такие как:
источник
Это звучит как «тест Вилкоксона со знаком» ( ссылка на Википедию ). Если предположить, что значения ваших рангов находятся в одном наборе (то есть
[1, 25]
), то это тест парных разностей (при нулевой гипотезе эти пары были выбраны случайным образом). NB это оценка несходства!Есть как
R
иPython
реализации связанной в этой вики - странице.источник
Предупреждение: это отличный вопрос, и я не знаю ответа, так что это действительно больше «что бы я сделал, если бы мне пришлось»:
В этой задаче есть много степеней свободы и много сравнений, которые можно сделать, но при ограниченных данных это действительно вопрос эффективного объединения данных. Если вы не знаете, какой тест запустить, вы всегда можете «придумать» его, используя перестановки:
Сначала мы определим две функции:
Функция голосования : как набрать рейтинг, чтобы мы могли объединить все рейтинги одной группы. Например, вы можете присвоить 1 балл элементу с самым высоким рейтингом, а 0 - всем остальным. Тем не менее, вы потеряете много информации, поэтому, возможно, лучше использовать что-то вроде: элемент с наивысшим рейтингом получает 1 балл, второй - на 2 балла и т.д.
Функция сравнения : Как сравнить две агрегированные оценки между двумя группами. Так как оба будут вектором, сработает подходящая норма разницы.
Теперь сделайте следующее:
Проблема в том, что мы не знаем распределение тестовой статистики под нулем, что обе группы одинаковы. Но если они одинаковы, мы могли бы случайно перемешать наблюдения между группами.
Повторите процесс около 1000 раз, и теперь используйте статистику теста перестановки как эмпирическое нулевое распределение. Это позволит вам вычислить p-значение, и не забудьте составить красивую гистограмму и нарисовать линию для вашей тестовой статистики следующим образом:
Но, в зависимости от настройки, я ожидаю, что может быть много случайности, и вам понадобится довольно большой размер выборки, чтобы метод сработал. Если у вас есть предварительные знания о конкретных вещах, которые, по вашему мнению, могут различаться между двумя группами (скажем, конкретные предметы), то используйте это, чтобы адаптировать свои две функции. (Конечно, обычно делайте это перед запуском теста и не выбирайте черри, пока не получите что-то существенное )
PS Скиньте мне сообщение, если вас интересует мой (грязный) код. Это слишком долго, чтобы добавить сюда, но я был бы рад загрузить его.
источник