Вывести отклонение от бокса

12

Мне было интересно, как вывести дисперсию переменной, используя коробочный график. Возможно ли, по крайней мере, сделать вывод, если две переменные имеют одинаковую дисперсию, наблюдая их блокпост?

Donbeo
источник
1
Недавно наткнулся на эту статью на похожую тему. Надеюсь, это даст вам некоторое представление.
Penguin_Knight

Ответы:

16

Не без множества строгих предположений, нет. Если бы вы предположили, что ответ был положительным (вместо того, чтобы спрашивать, за что я вам аплодирую), держу пари, я мог бы обмануть вас следующим (встречным) примером:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))

Выглядит довольно похоже, верно? И все же !σ12=1,σ22=1.96

В случае, если это не ясно из кода, население 2:

-3.000 -2.650 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348  2.650  3.000

И нет, вы не можете сделать вывод, что это население нормально только потому, что оно абсолютно симметрично. Вот график QQ населения 2:

Конечно, это не выглядит нормально для меня.

Изменить - Ответ на ваш комментарий:

Дисперсия - это числовая статистика. Если дисперсии двух распределений буквально равны, это почти все, что вы можете сказать об этом. Если два распределения абсолютно нормальные , опять же, есть математическое определение, которое они оба подойдут. Если два распределения не являются абсолютно нормальными или равными по дисперсии, вы не должны говорить иначе. Если вы хотите сказать, что они приблизительно равны или нормальны, вам, вероятно, следует определить «достаточно приблизительный» таким образом, который соответствует вашим целям, которые вы здесь не указали. Чувствительность к распределительным различиям сильно варьируется в зависимости от анализа, который обычно мотивирует такие вопросы, как ваш. Например,tон достаточно устойчив к нарушениям последнего при равных размерах выборки ), поэтому я бы не рекомендовал этот тест для сравнения моей популяции 2с популяцией 1(нормальное распределение).

Ник Стаунер
источник
3
Хороший пример. Ник использует R. (Пока все не используют R, это хорошая практика, чтобы упомянуть об этом.)
Ник Кокс
Не могу не думать, что это будет хороший день для науки в целом :)
Ник Стаунер,
У меня есть длинное эссе об этом, но так или иначе это не помещается в доступное место.
Ник Кокс
Хороший ответ. Можете ли вы написать, какую информацию мы должны сообщать, чтобы сказать: «Они нормальные и разница одинакова»
Donbeo
Отредактировано, чтобы ответить.
Ник Стаунер,
10

Это было хорошо ответил. Эти дополнительные комментарии слишком длинные (ОБНОВЛЕНИЕ: теперь слишком много), чтобы их можно было использовать в качестве комментариев.

Строго говоря, все, что вы можете прочитать на блокпосте об изменчивости распределения, это его межквартильный диапазон (длина или высота блока) и диапазон (длина или высота между крайностями дисплея).

В качестве приблизительного примера, блочные графики, которые кажутся идентичными, вероятно, будут иметь очень похожие отклонения, но будьте внимательны. Графики с очень разными позициями или с хвостами (или с обоими) вряд ли будут иметь одинаковые отклонения, но это не невозможно. Но даже если блочные графики выглядят одинаково, вы не получите никакой информации на простом или ванильном прямоугольном графике об изменчивости внутри прямоугольника или об изменчивости внутри усов (линии, часто показанные между рамкой и точками данных в пределах 1,5 IQR от ближайшего квартиля) , NB существует несколько вариантов коробочных участков; авторы часто плохо документируют точные правила, используемые их программным обеспечением.

Популярность коробочного сюжета имеет свою цену. Квадратные графики могут быть очень полезны для демонстрации общих характеристик многих групп или переменных (скажем, 20 или 30, иногда даже больше). Как обычно используется для сравнения, скажем, 2 или 3 группы, они перепроданы, на мой взгляд, поскольку другие графики могут показать гораздо более детально в одном и том же пространстве. Естественно, это широко, если не общепризнанно, и различные улучшения сюжета показывают больше деталей.

Серьезная работа с отклонениями требует доступа к исходным данным.

Это широкая кисть, и можно добавить больше деталей. Например, положение медианы внутри рамки иногда дает немного больше информации.

ОБНОВИТЬ

Я предполагаю, что гораздо больше людей интересуются использованием (и ограничениями) блочных графиков в целом, чем конкретным вопросом о выводе отклонения от блочного графика (на который краткий ответ звучит так: «Вы не можете, кроме косвенно, приблизительно, и иногда "), поэтому я добавлю еще комментарии к альтернативам, предложенные @Christian Sauer.

  • Гистограммы, используемые разумно, часто все еще конкурентоспособны. Современный классический вводный текст Фридмана, Пизани и Пурвеса использует их повсюду.

  • То, что различно называют точечными или полосовыми графиками (диаграммами) (и многими другими именами), легко понять. Идентичные точки могут быть сложены после биннинга, если это необходимо. Вы можете добавить медиану и квартили, или средние и доверительные интервалы, к содержанию своего сердца.

  • Квантовые участки, кажется, приобрели вкус, но по многим параметрам наиболее универсальны. Я включаю здесь графики упорядоченных значений, опять-таки совокупную вероятность (положение графика), а также квантильные графики, которые были бы прямыми, если бы данные представляли собой любое рассматриваемое распределение «фирменного знака» (нормальное, экспоненциальное, гамма, что угодно). (Благодарность @Scortchi за ссылку на «фирменный знак» в том виде, в каком его использовал CJ Geyer.)

Но исчерпывающий список невозможен. (Я добавлю, например, что очень редко представление стволовых и створок является совершенно правильным, чтобы видеть важные детали в данных, как, например, когда преобладают предпочтения цифр.) Ключевой принцип заключается в том, что лучшие виды графика распределения позволяют кажущееся невозможным восприятие тонкой структуры данных, которая может быть интересной или важной (модальность, гранулярность, выбросы и т. д.), а также грубая структура (уровень, разброс, асимметрия и т. д.).

Квадратные участки не одинаково хороши для отображения всех видов структур. Они не могут быть и не должны были быть. Стоит отметить, что Дж. В. Тьюки в Исследовательском анализе данных Рединг, Массачусетс: Аддисон-Уэсли (1977) привел пример бимодальных данных от Рэлея, который на рамочном графике полностью скрывает основную структуру. Будучи великим статистиком, он прекрасно понимал, что блочные графики не всегда являются ответом.

Причудливая практика, широко распространенная во вводных текстах, обсуждает ANOVA, предлагая читателям взглянуть на коробочные графики, на которых показаны медианы и квартили, а не средние и дисперсии (скорее SD). Естественно, смотреть на данные гораздо лучше, чем не смотреть, но даже в этом случае более подходящим графическим представлением является, возможно, некоторый график необработанных данных со встроенными средствами +/- некоторый соответствующий кратный SE.

Ник Кокс
источник
Ник, не могли бы вы описать альтернативы коробочкам для небольшого числа переменных?
Кристиан Сауэр
@ChristianSauer Спасибо за приглашение: смотрите обновление.
Ник Кокс
Спасибо за очень хорошее обновление. Мне особенно нравится ваш последний абзац, я нахожу коробочные графики в сочетании с ANOVA и / или регрессией довольно запутанными - это все равно, что сравнивать яблоки и апельсины.
Кристиан Сауэр
2
Статистика, как и любая другая наука, полна причудливой терминологии, обозначений и привычек анализа, просто скопированных с других.
Ник Кокс
1
Я полностью согласен - в магистерской работе я проверил независимые переменные для их нормального распределения ... это лучшая форма статистики культа грузов :(
Christian Sauer
6

Наивный подход:

0.67σ1.35σ

IQR=1.35σσ=0.74IQR

А что касается сравнения отклонений по коробочному графику: более широкие прямоугольники означают большие отклонения, но это дает вам предварительное понимание, и вы должны принимать во внимание также усы и выбросы. Для подтверждения вы должны использовать гипотезу контраста.

Rufo
источник
Чтобы сравнить дисперсию, мы должны предположить, что оба распределения нормальны? Можем ли мы сделать вывод, что переменная нормальна, если прямоугольник симметричен относительно центра?
Donbeo
1
Я подписываюсь на все, что говорит @Nick_Stauner. То, что я раскрыл, предполагало, что ваша популяция нормальная, что требует, помимо прочего, симметрии и эксцесса = 0. Это предположение часто нарушается.
Руфо
2
Куртоз определяется по-разному. В другом (более простом) определении нормальный (гауссовский) имеет эксцесс 3. Вы должны проверить, какое определение использует ваше программное обеспечение, если вы его вычисляете на практике.
Ник Кокс
1
Для нормального распределения это будет эксцесс 3, избыточный эксцесс 0 , если я не ошибаюсь. Мне любопытно, если какие-либо популярные программные пакеты производят не избыточный эксцесс по умолчанию. Это, вероятно, вызвало бы большую путаницу (не для того, чтобы отрицать, что люди в целом несколько смущены отсутствием «избытка» в противоположной практике) ...
Ник Стаунер,
1