Меня интересует определение квартиля, которое обычно используется, когда вы занимаетесь базовой статистикой. У меня есть книга типа Stat 101, и она просто дает интуитивное определение. «Около четверти данных приходится на первый квартиль или ниже ...» Но он дает пример, в котором он вычисляет Q1, Q2 и Q3 для набора данных.
5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37
Поскольку существует 15 фрагментов данных, в качестве медианы выбирается 15, Q2. Затем он разделяет оставшиеся данные на две половины, с 5 по 14 и с 16 по 37. Каждая из них содержит 7 частей данных, и они находят медиану каждого из этих наборов, 10 и 18, как Q1 и Q3, соответственно. Вот как бы я сам это вычислил.
Я посмотрел на статью в Википедии, и она дает 2 метода. Один согласен с вышеизложенным, а другой говорит, что вы могли бы также включить медиану 15 в оба набора (но вы не включили бы медиану, если бы она была средним из двух средних чисел в случае четного числа точек данных). Это все имеет смысл для меня.
Но затем я проверил Excel, чтобы увидеть, как Excel вычисляет его. Я использую Excel 2010, который имеет 3 разные функции. Quartile был доступен в 2007 году и предыдущих версиях. Кажется, они хотят, чтобы вы прекратили использовать это в 2010 году, но он все еще доступен. Quartile.Inc является новым, но, насколько я могу судить, полностью согласен с Quartile. И есть Quartile.Exc также. Я считаю, что оба последних 2 являются новыми в 2010 году. На этот раз я только что попытался использовать целые числа 1, 2, 3, ..., 10. Я ожидаю, что Excel даст медиану 5,5, Q1 из 3 и Q3 из 8. Метод также из книги статистики. поскольку оба метода в Википедии дадут эти ответы, так как медиана - это среднее от средних двух чисел. Excel дает
quartile number, Quartile.Inc, Quartile.Exc
1, 3.25, 2.75
2, 5.5, 5.5
3, 7.75, 8.25
Ни один из них не согласен с тем, о чем я ранее говорил.
Описания в файле справки для Excel:
Quartile.Inc - возвращает квартиль набора данных на основе значений процентиля от 0..1 включительно.
Quartile.Exc - возвращает квартиль набора данных, основанный на значениях процентиля от 0..1, исключая.
Может ли кто-нибудь помочь мне понять это определение, которое использует Excel?
Ответы:
Как правило, ранг (между и для данных) конвертируется в процент по формуле1 n n pр 1 N N п
для некоторой предопределенной «позиции черчения» от до включительно. Решение для с точки зрения дает0 1 r pα 0 1 р п
Excel исторически используется для своих и функцийα = 1
PERCENTILE
QUARTILE
. Документация дляQUARTILE.INC
иQUARTILE.EXC
бесполезно, так что мы должны перепроектировать , что эти функции делают.Например, с данными , мы имеем и для трех квартилей. Использование в предыдущей формуле дает ранги , и , воспроизводя результаты для .n = 10 p ∈ { 25 , 50 , 75 } α = 1 9 ( 0,25 ) + 1 = 3,25 9 ( 0,50 ) + 1 = 5,5 9 ( 0,75 ) + 1 =( 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 ) п = 10 p ∈ { 25 , 50 , 75 } α = 1 9 ( 0,25 ) + 1 = 3,25 9 ( 0,50 ) + 1 = 5,5 9 ( 0,75 ) + 1 = 7,75
QUARTILE.INC
Если вместо этого мы установим соответствующие ранги будут , и , воспроизводя результаты для .11 ( 0,25 ) = 2,75 11 ( 0,50 ) = 5,5 11 ( 0,75 ) = 8,25α = 0 11 ( 0,25 ) = 2,75 11 ( 0,50 ) = 5,5 11(0.75)=8.25
QUARTILE.EXC
Дальнейшее тестирование с вашей стороны (у меня нет последней версии Excel) может установить обоснованность моего предположения о том, что эти две версии функции квартиля определяются этими двумя (крайними) значениямиα .
Кстати, дробные ранги конвертируются в значения данных с помощью линейной интерполяции. Процесс объяснен и проиллюстрирован в моих заметках к курсам Percentiles и EDF Plots - смотрите в нижней части этой страницы. Существует также ссылка на электронную таблицу Excel, иллюстрирующую расчеты.
Если вы хотите реализовать функцию общего процентиля в Excel , вот макрос VBA для этого:
Он преобразует номинальный процент (например, 25/100) в процент, который заставит
PERCENTILE
функцию Excel вернуть желаемое значение. Он предназначен для использования в формулах клеток, как в=PERCENTILE(Data, PercentileA(0.25, Count(Data), 0.5))
.источник
Мне кажется, что Excel
quartile.inc
согласен с оригиналомquartile
, который согласен с R по умолчанию и другими определениями.С полезной подсказкой от whuber я обнаружил, что Excel,
quartile.exc
похоже, согласен (в случае 1..10) сtype=6
определением R квантиля:Что, по-видимому, и дает ответ на ваш вопрос: «Да, Minitab и SPSS делают».
источник
Я думаю, что исключительный вкус квартиля просто игнорирует 5 и 37 (мин и макс в ваших исходных данных).
В Stata обе версии по умолчанию и альтернативные версии предоставляют значения quartile.exc с этими данными.
источник
QUARTILE.EXC
.#NUM!
PERCENTILE
Множество интересных подробностей, но если вернуться к исходному вопросу, я не вижу, чтобы два немного отличающихся способа, которые могли бы не дать точно такой же ответ, действительно имеют значение. Первый показатель - это точка, в которой 25% наблюдений приходится на нее или ниже. В зависимости от размера выборки это может быть или не быть точной точкой в данных. Таким образом, если одна точка находится ниже, а вторая выше, этот первый квартиль не очень хорошо определен, и любая точка между этими двумя может служить одинаково хорошо. То же самое верно для медианы, когда размер выборки является четным. Правило выбирает среднюю точку между точками данных ниже и выше. Но на самом деле ничто не говорит о том, что выбор, данный правилом, действительно лучше, чем любой другой пункт.
источник
Для тех из вас, кто действительно использует Excel, здесь есть хорошее описание различных методов версий: http://peltiertech.com/WordPress/comparison/
источник
В Excel 2016 я заметил, что правильные значения квартилей можно получить, если:
источник