Я изучаю учебник по статистике, изучая R, и наткнулся на камень преткновения в следующем примере:
После просмотра ?quantile
я попытался воссоздать это в R следующим образом:
> nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104)
> quantile(nuclear)
0% 25% 50% 75% 100%
6.0 9.5 16.0 28.0 104.0
Учитывая, что текст и R имеют разные результаты, я понимаю, что R использует медиану в расчете первого и третьего квартилей.
Вопрос:
Должен ли я включать медиану в расчет первого и третьего квартилей?
Точнее, в учебнике или в R это правильно? Если в учебнике это правильно, есть ли способ добиться этого в R?
Заранее спасибо.
quantile
типы 1, 2 и 6 будут воспроизводить их для набора данных этого конкретного размера . Ни один изR
методов не соответствует вашему учебнику. (Интересно о качестве этого текста ...)quantile
.?quantile
Ответы:
Ваш учебник запутался. Очень немногие люди или программное обеспечение определяют квартили таким образом. (Это делает первый квартиль слишком маленьким, а третий квартиль слишком большим.)
quantile
ФункцияR
реализует девять различных способов вычислительных квантилей! Чтобы увидеть, какие из них, если таковые имеются, соответствуют этому методу, давайте начнем с его реализации. Из описания мы можем написать алгоритм сначала математически, а затем вR
:Порядок данных .Икс1≤ х2≤ ⋯ ≤ xN
Для любого набора данных медиана является его средним значением, когда существует нечетное число значений; в противном случае это среднее двух средних значений при четном числе значений.
R
«Smedian
функция вычисляет это.Индекс среднего значения равен . Когда это не является целым числом, является медианой, где и являются закругленные вниз и вверх. В противном случае, когда является целым числом, является медианой. В этом случае возьмите и . В любом случае - это индекс значения данных непосредственно слева от медианы, а - индекс значения данных непосредственно справа от медианы.( x l + x u ) / 2 l u m m x m l = m - 1 u = m + 1 l uм = ( н + 1 ) / 2 ( хL+ хU) / 2 L U м м Иксм l = m - 1 и = м + 1 L U
«Первый квартиль» - это медиана всех для которых . «Третий квартиль» - это медиана для которой . i ≤ l ( x i ) i ≥ uИкся я ≤ л ( хя) я ≥ у
Вот реализация. Это может помочь вам сделать упражнения в этом учебнике.
Например, вывод
quart(c(6,7,8,9,10,15,16,16,20,20,23,33,50,58,104))
соглашается с текстом:Давайте вычислим квартили для некоторых небольших наборов данных, используя все десять методов: девять
R
и учебники:Запустив это и проверив, вы обнаружите, что значения учебника не соответствуют ни одному из
R
выходных данных для всех трех размеров выборки. (Модель разногласий продолжается в циклах третьего периода, показывая, что проблема сохраняется независимо от размера выборки.)Учебник, возможно, неправильно истолковал метод вычисления «петель» Джона Тьюки (он же «четверти»). Разница заключается в том, что при разделении набора данных вокруг медианы он включает медиану в обеих половинах. Это даст и для примера набора данных.289,5 28
источник
В области статистики (которую я преподаю, но в которой я не являюсь исследователем) расчеты квартилей особенно неоднозначны (таким образом, это не всегда верно для квантилей, в более общем смысле). За этим стоит большая история, отчасти из-за использования (и, возможно, злоупотребления) межквартильного диапазона (IQR), который нечувствителен к выбросам, в качестве проверки или альтернативы стандартному отклонению. Это остается открытым конкурсом, в котором три отличительных метода для вычисления Q1 и Q3 являются ко-каноническими.
Как это часто бывает, статья в Википедии имеет разумное резюме: https://en.m.wikipedia.org/wiki/Quartile В тексте Ларсона и Фарбера, как и в большинстве элементарных статистических текстов, используется то, что описано в статье Википедии как « Способ 1. " Если я следую приведенным выше описаниям, r использует «Метод 3». Вы должны решить для себя, что канонически уместно в вашей области.
источник