Каковы наиболее приемлемые способы визуализации результатов независимого двух-выборочного t-теста? Чаще всего используется числовая таблица или какой-то сюжет? Цель состоит в том, чтобы случайный наблюдатель посмотрел на фигуру и сразу увидел, что они, вероятно, из двух разных групп населения.
data-visualization
t-test
cbake
источник
источник
Ответы:
Стоит четко определить цель вашего сюжета. В целом, есть два разных типа целей: вы можете составить графики для себя, чтобы оценить сделанные вами предположения и руководить процессом анализа данных, или вы можете создать графики, чтобы сообщить результат другим. Это не одно и то же; например, многие зрители / читатели вашего сюжета / анализа могут быть статистически неискушенными и могут не знать, например, о равной дисперсии и ее роли в t-тесте. Вы хотите, чтобы ваш участок передавал важную информацию о ваших данных даже таким пользователям, как они. Они безоговорочно верят, что вы все сделали правильно. Из вашего вопроса настройки, я понимаю, вы после последнего типа.
В действительности, наиболее распространенным и приемлемым графиком для передачи результатов t-теста 1 другим (за исключением того, является ли он на самом деле наиболее подходящим) является гистограмма средних значений со стандартными столбцами ошибок. Это очень хорошо соответствует t-критерию, поскольку t-критерий сравнивает два средних с использованием их стандартных ошибок. Когда у вас есть две независимые группы, это даст интуитивную картину, даже для статистически неискушенных, и (с учетом данных) люди могут «сразу увидеть, что они, вероятно, из двух разных групп населения». Вот простой пример с использованием данных @Tim:
Тем не менее, специалисты по визуализации данных обычно презирают эти графики. Их часто выводят как «динамитные графики» (ср. « Почему динамитные графики плохие» ). В частности, если у вас есть только несколько данных, часто рекомендуется просто показать сами данные . Если точки перекрываются, вы можете дрожать по горизонтали (добавить небольшое количество случайного шума), чтобы они больше не перекрывались. Поскольку t-тест в основном касается средних и стандартных ошибок, лучше всего наложить средние и стандартные ошибки на такой график. Вот другая версия:
Если у вас много данных, блочные диаграммы могут быть лучшим выбором для быстрого обзора дистрибутивов, и вы можете наложить на них средства и SE там же.
Простые графики данных и блокпосты достаточно просты, чтобы большинство людей могли их понять, даже если они не очень разбираются в статистике. Имейте в виду, однако, что ни один из них не позволяет легко оценить обоснованность использования t-теста для сравнения ваших групп. Эти цели лучше всего обслуживать различные виды сюжетов.
1. Обратите внимание, что это обсуждение предполагает независимый выборочный t-критерий. Эти графики могут быть использованы с t-тестом зависимых выборок, но в этом контексте они также могут вводить в заблуждение (см. « Неправильно ли использование шкал ошибок для средних показателей в рамках исследования внутри субъекта» ).
источник
Фактически, коробочные графики обычно используются для «неформального» тестирования гипотез, например, как описано Йоавом Бенджамини в статье 1988 года. Открытие коробки с коробкой» :
Смотрите также: T-тест с использованием только сводных данных на диаграмме
источник
В основном это вариации на полезные ответы @Tim и @gung, но графики нельзя вписать в комментарий.
Небольшие, но, возможно, полезные моменты:
Полосовой или точечный график, как показано @gung, нуждается в модификации, если есть связи, как в данных примера. Точки могут быть сложены или дрожать, или, как в примере ниже, вы можете использовать гибридный график квантильных коробок как предложено Эмануэлем Парценом (наиболее доступная ссылка, вероятно, 1979. Непараметрическое статистическое моделирование данных. Журнал, Американская статистическая ассоциация74: 105-121). Это также имеет и другие достоинства, подчеркивая, что если половина данных находится внутри блока, то половина тоже находится снаружи, и, по сути, показывает все детали распределения. Там, где есть только две группы, как в этом контексте, любой более традиционный вид рамочного графика может быть минимальным, по сути скелетным, отображением. Некоторые воспримут это как добродетель, но есть возможность показать больше деталей. Обратный аргумент заключается в том, что прямоугольник, помечающий конкретные точки, особенно те, которые больше 1,5 IQR от ближайшего квартиля, является четким предупреждением для пользователя: следите за ходом t-теста, так как в хвостах могут быть точки, которые вы должны беспокоюсь о.
Вы можете естественным образом добавить указание средств на блок-график, что довольно часто делается. Добавление другого маркера или символа точки является распространенным явлением. Здесь мы выбираем опорные линии.
Квадратные ящики для курящих и некурящих. Коробки показывают медианы и квартили. Горизонтальные линии синим цветом означают.
Запись. График был создан в Stata. Вот код для тех, кто заинтересован.
stripplot
должен быть установлен предварительно сssc inst stripplot
.источник
источник