Чтение сюжетов типа «ящик с усами»: возможно ли выявить существенные различия между группами?

11

Предположим, что мы смотрим на этот сюжет с рамками и усами:

участок

Между четвергом и пятницей, я думаю, большинство согласится с тем, что, похоже, существенная разница во времени сна. Это статистически обоснованная гипотеза? Можем ли мы заметить существенные различия из-за того, что ни один из диапазонов внутреннего квартиля не перекрывается между четвергом и пятницей? Как насчет того, что верхние и нижние усы четверга и пятницы соответственно перекрываются? Влияет ли это на наш анализ?

Обычно сопровождающий такой график представляет собой своего рода ANOVA, но мне просто любопытно, сколько мы можем сказать о различиях между группами, просто посмотрев на блокпост .

BlackSite
источник
Круги представляют выбросы.
Майкл Р. Черник
3
Пока на графике отсутствуют какие-либо признаки размера выборки, это сложно. Но если вы включите в график доверительные интервалы для медиан, вы сможете сравнить эти доверительные интервалы. Кажется, они не присутствуют в вашем сюжете.
kjetil b halvorsen
@kjetilbhalvorsen это всего лишь сюжет, который я беру у Google :) ... Я включил в свой сюжет именно то, что вы описали, как часть теста HSD Тьюки
blacksite
2
Без КИ нельзя говорить о «значительных» различиях. Однако я бы сказал, что между четвергом и пятницей есть "заметная" разница. Или даже «самая заметная» разница возникает между четвергом и пятницей.
Эш
1
Кружки - это точки более 1,5 IQR от ближайшего квартиля. Они не являются выбросами однозначно и объективно. Это для четверга не выглядит необычным по сравнению с остальной частью распределения. Это на пятницу действительно делает; и исследователь или аналитик должны хотеть проверить это, если это вообще возможно, и посмотреть, есть ли история, чтобы объяснить. Возможно, кто-то действительно не спал! Пометка точек данных таким образом помечает их для проверки и обдумывания. Это не статистический метод выявления демонов, которых нужно изгнать.
Ник Кокс

Ответы:

4

Нет, ты не можешь. Если бы у вас были размеры выборки и большой опыт, вы могли бы догадаться - и точность вашего предположения зависела бы (в дополнение к величине эффекта) от размера выборки. Если N = 1 000 000 на группу, большое значение. Если N = 10 на группу, не так много. На 100 на группу сложнее угадать.

Я бы сказал, что это хорошо . Что нужно сделать с рамочным графиком, так это не пытаться угадать статистическую значимость, а посмотреть на то, что происходит, и попытаться обдумать это. Хм. Больше спать по выходным. Это интересно, но не совсем удивительно. Мы могли бы смоделировать часы сна как функцию выходных или нет. Или мы могли бы попытаться увидеть, изменился ли этот образец. Может быть, у пенсионеров нет такой картины? Как насчет рабочих смен? Люди, которые работают на выходных? Люди, которые работают 7 дней в неделю?

Как говаривал мой любимый профессор в аспирантуре (Герман Фридман): «Хватит писать об исследованиях!»

Питер Флом - Восстановить Монику
источник
1
Я думаю, что этот ответ излишне пессимистичен. Боксы на самом деле содержат некоторую информацию о размерах групп, потому что действительно малые размеры групп ( ) имеют характерные «вырожденные» структуры. Поскольку эти распределения не слишком искажены и имеют несколько выбросов, IQR (умноженное на подходящее кратное число) является хорошим заменителем SD, откуда мы можем ограничить стандартные ошибки. Таким образом, можно сделать консервативный грубый и готовый ANOVA только на основе сюжета: и это покажет, что общий ANOVA значим. Можно также сделать консервативные пост-специальные тесты. N<5
whuber
8

Да, ты можешь. По крайней мере, в приблизительном смысле.

Я обрисовываю как ниже (и, как вы предлагаете, есть связь с «перекрытием коробки») вместе с некоторыми оговорками и ограничениями. Но сначала давайте обсудим несколько предварительных условий для некоторого фона и контекста. (Я думаю, что подходящий ответ здесь должен быть сосредоточен не на деталях примера - хотя это, возможно, заслуживает некоторого упоминания в качестве отступления - но на центральной проблеме использования коробочных диаграмм для оценки того, могут ли очевидные различия быть легко объяснены как случайное изменение или нет .)

Если у вас есть доступ к данным, вы можете нарисовать зубчатые боксы, которые предназначены для такого визуального сравнения.

Изображение с зубчатыми коробками в R

Там в обсуждение зубчатых расчетов boxplot здесь . Если интервалы надрезов не перекрываются, две сравниваемые группы приблизительно различаются на уровне 5%; расчеты основаны на нормальных расчетах, но они достаточно надежны и работают достаточно хорошо в широком диапазоне распределений. (Если его рассматривать как формальный тест, мощность не так высока при нормальных условиях, но она должна быть довольно хорошей для множества более или менее «типичных» случаев с более тяжелыми хвостами.)

Учитывая то, как работают надрезы на боксах, вы можете определить быстрое практическое правило, которое будет работать, когда у вас будет только изображение, подобное тому, о котором идет речь. Когда размер выборки равен 10, а медиана размещена близко к середине поля, выемки на участке с выемками расположены примерно на ширине окна, поэтому концы с выемками и поле находятся примерно в одном месте.

Смотрите здесь для обсуждения того, как возникает правило " ".n=10

Тем не менее, вам не нужно медиана в середине окна для этого сравнения; это только объясняет, как мы пришли к правилу. Несмотря на то, что мы начали с зазубренных коробочных диаграмм и обычного вычисления интервала для медианы, мы сейчас просто рассматриваем правило «коробочного перекрытия» при и нулевом значении, которое (наряду с любыми другими предположениями) приведет к идентичные непрерывные распределения против некоторой альтернативы, которая, как правило, разделяет блоки (не обязательно чистый сдвиг местоположения, хотя это самая простая альтернатива для интерпретации).n=10

Вероятности возможных относительных упорядочений квартилей (шарниры на коробчатом графике, которые соответствуют определению Тьюки) в размерах выборок, где они встречаются при однократных наблюдениях, не зависят от формы распределения под нулем. В этом случае (например, при в каждом образце) эта версия тестового теста распространяется бесплатно . При он не распространяется бесплатно (поскольку распределение средних значений статистики соседних порядков теперь связано с формой распределения), но практически не распространяется.n=9n = 10n=10

Частота ошибок типа I околоn=10 : моделирование по ряду часто используемых распределений (как симметричных, так и асимметричных, тяжелых и легких хвостов) показывает, что тест с перекрытием по двум выборкам имеет уровень значимости 2,3% при (на самом деле не так много различий между распределениями), и это примерно 5,6% -ный тест при (он снова ниже 5% при , предположительно из-за усреднения статистики заказов, уменьшающей дисперсию больше, чем потеря наблюдения увеличивает его). Если у вас есть образцы 9 и 10, уровень значимости ниже 5%.n=10,10n=9,9n=8,8

Другие размеры выборки : если вы знаете размеры выборки, вы можете выяснить, где выемки идут только на дисплее. Если у вас есть нижняя граница для размеров выборки, вы можете получить верхнюю границу для расположения меток. Но даже если все, что вы знаете, это то, что равно по крайней мере 10, вы можете быстро проверить на перекрытие блоков. Ширина интервалов надрезов пропорциональна поэтому вы можете понять, что при вырезы должны быть примерно на полпути к каждому квартилю от медианы.nnn=40

Глядя на ваш сюжет:

Обратите внимание, что по внешнему виду графика в вопросе мы можем сказать, что размеры выборки должны быть не менее 5; если бы они были меньше 5, на отдельных участках выборки были бы четкие признаки того, что они были от более низкого размера выборки (например, медиана, являющаяся мертвой точкой каждой коробки, или усы длины 0, когда был выброс).

В качестве альтернативы, если прямоугольники (обозначающие квартили) не перекрывают друг друга, а размер выборки составляет не менее 10, то две сравниваемые группы должны иметь разные медианы на уровне 5% (рассматривается как одно парное сравнение).

Если вы не знаете , так как мы знаем, что размеры выборки должны быть не менее 5, вам просто нужно сделать интервалы немного больше, чем прямоугольники, в частности, если вы расширяете каждую рамку примерно на 40% от расстояние от медианы, и они все еще не перекрываются, они указали бы на значительную разницу для - возвращаясь здесь к аргументу из рассуждений с надрезанным блокпостом, а не к более широкой основе, которую мы можем различить для простого сравнения прямоугольника.nn=5

[Обратите внимание, что это не учитывает количество сравнений, поэтому, если вы делаете множественные сравнения, ваша общая ошибка типа I будет больше. Это предназначено для визуального осмотра, а не формального тестирования; тем не менее соответствующие идеи могут быть адаптированы к более формальному подходу, включая корректировку для множественных сравнений.]

Обратившись ли вы можете , было бы целесообразно рассмотреть вопрос о целесообразности вы должны . Возможно нет; проблема потенциального p-хакерства реальна, но если вы используете это, чтобы выяснить, например, следует ли собирать новые данные по проблеме исследования, и все, что у вас есть, это блок-лист на бумаге - скажем - это может быть весьма полезно иметь возможность сделать некоторую оценку того, есть ли там что-то большее, чем можно легко объяснить изменением из-за шума. Но углубленно рассмотреть этот вопрос - значит ответить на другой вопрос.

Glen_b - Восстановить Монику
источник