Отображение обычных данных - средние, средние и средние ранги

11

У меня есть некоторые порядковые данные, которые обычно не распространяются, поэтому я решил провести непараметрическое тестирование, используя U-критерий Манна-Уитни. Я смотрю на различия между группами по семи баллам - эти баллы равны 0, 1, 2 или 3 для каждого предмета. Мне сложно понять, как отобразить мои данные!

Если я представлю данные, используя медианы (и IQR медиан), то вообще неясно, где различия, потому что медианы по большей части падают либо на 0, либо на 1. Таким образом, несмотря на то, что U-критерий Манна-Уитни показывает значительные различия, стол выглядит просто неинтересно.

Я мог бы также представить данные, используя средства . Существуют некоторые научные статьи, в которых говорится, что вы можете использовать средства с порядковыми данными, но вы не можете делать такие же предположения относительно различий между оценками (например, разница между 0 и 1 не такая, как между 1 и 1). 2). Использование средств будет немного спорным, хотя цифры в таблице хорошо рассказывают историю, когда я их использую.

Третий вариант - использование средних рангов, которые SPSS дает мне в выводе Манна-Уитни. Средние ранги - это то, что сравнивают между группами, так что, может быть, я должен просто использовать их? Единственная проблема, с которой я столкнулся, заключается в том, что средние ранги на самом деле ничего не значат в отношении фактических данных (например, я не вижу, чтобы объекты были ближе к 3, в то время как элементы управления ближе к 1 с использованием средних рангов).

И последний вариант заключался в проведении анализа хи-квадрат, сравнивая предметы и контроли после разделения баллов на две группы (0 и 1 для низкого и 2 и 3 для высокого). Однако, когда я это сделал, различия были не такими выраженными (вероятно, по ряду причин).

Эрик
источник
Вы спрашиваете о том, как лучше всего представить свои данные в тексте, в таблице или на рисунке?
gung - Восстановить Монику
И текст, и таблица. В тексте я собираюсь сказать, что между группами были существенные различия по нескольким компонентам моего обследования сна. Эти различия связаны с тестом Манна-Уитни, поэтому они сравнивают средние оценки. Чего я не знаю, так это как мне представить эти различия в таблице. Использование медиан не работает, потому что они слишком похожи, и вы не видите различий. Средства работают лучше, но кажется странным использовать параметрические меры в таблице, которая должна быть о непараметрических медианах. И средние ранги будут работать, но они не представляют фактические значения.
Эрик
1
Интересно, можно ли адаптировать некоторые ответы из Графика для связи между двумя порядковыми переменными для ваших целей? На графиках примеров показана взаимосвязь между двумя переменными, каждая из которых имеет пять уровней, но если вы, например, сравниваете две группы и у вас есть четыре возможных уровня, вы можете представить некоторые из этих визуализаций как 4 на 2 вместо 5 на 5, возможно.
Серебряная
Было бы полезно, если бы вы могли опубликовать некоторые (возможно, полностью поддельные) примеры данных, чтобы у людей, которые хотят продемонстрировать возможный метод, было что-то для работы.
Серебряная
1
Эрик, по определению непараметрический критерий, в частности Манн-Уитни, сравнивает (для доминирования) два распределения в целом, он не сравнивает конкретное значение параметра распределения, такое как среднее значение или медиана. Не существует единственного числа, которое является характеристикой распределения и в то же время является тем, что сравнивается в данном случае. Вы можете использовать 2-выборочную оценку Ходжеса-Лемана, но она является характеристикой различия между двумя распределениями, а не для каждого из двух распределений.
ttnphns

Ответы:

8

Это отличный вопрос. Как вы обнаружили, квантили не работают, когда в данных много связей, потому что они слишком прерывисты, как оценки. Я часто нахожу, что средства работают лучше всего, если вы можете предположить, что расстояние между категориями, по крайней мере, «наполовину значимо». Вероятности превышения всегда действительны. В вашем случае они будут оцениваться по доле наблюдений . Средние ранги полезны при сравнении групп, но я не вижу особой пользы для одной переменной.1,2,=3

Правильность использования среднего для суммирования порядковых переменных редко может быть получена из самих данных. Это субъективно.

Вместо того чтобы использовать средние ранги, я бы использовал подходящую меру корреляции рангов или вероятность конкорданса (простой линейный перевод статистики Уилкоксона-Манна-Уитни; это средний ранг наблюдений в одной из двух групп, разделенных на константу) между две переменные (например, двоичная группировка и порядковый масштаб). Выбор коэффициентов корреляции включает Сомерса (который соответствует вероятности согласования и штрафует за связи по порядковой переменной) и Goodman-Kruskal который не штрафует за связи по или .Dxyγxy

Фрэнк Харрелл
источник
1
Привет Фрэнк, спасибо за твой вдумчивый ответ. Если вы не возражаете, у меня есть пара дополнительных вопросов. Что касается средств - я полагаю, что категории по крайней мере наполовину значимы, поскольку они в основном относятся к «нет, слабое, умеренное и серьезное ухудшение», соответственно. Есть ли какие-либо ссылки, которые вы знаете о том, что я мог бы использовать в качестве прецедента для этого? Я также не решаюсь использовать средства только в одной таблице, а медианы в других - для согласованности. И для средних рангов - я считаю, что я сравниваю группы - предметы против контроля по 7 баллам. Является ли сравнение средних рангов приемлемым / полезным?
Eric
Для числовых порядковых данных с несколькими уровнями, такими как число и, возможно, пример с ухудшением, средние значения полезны, а медианы - нет (из-за слишком большого числа связей). Было много случаев, когда я использовал средства для порядковых данных и медианы для искаженных непрерывных данных в одной и той же таблице.
Фрэнк Харрелл