Есть ли 99 процентилей или 100 процентилей? Являются ли они группами чисел, или разделительными линиями, или указателями на отдельные числа?
Я полагаю, что тот же вопрос будет применяться для квартилей или любого квантиля.
Я читал, что индекс числа в конкретном процентиле (р), учитывая n пунктов, i = (p / 100) * n
Это наводит меня на мысль, что есть 100 процентилей ... потому что, если у вас есть 100 чисел (от i = 1 до i = 100), то у каждого будет индекс (от 1 до 100).
Если бы у вас было 200 чисел, было бы 100 процентилей, но каждый из них относился бы к группе из двух чисел. Или 100 делителей, исключая либо крайний левый, либо крайний правый делитель, иначе вы получите 101 делитель. Или указатели на отдельные числа, так что первый процентиль будет ссылаться на второе число, (1/100) * 200 = 2 А сотый процентиль будет ссылаться на 200-е число (100/100) * 200 = 200
Я иногда слышал, что там 99 процентилей, хотя ..
Google показывает оксфордский словарь, в котором говорится о процентиле - «каждая из 100 равных групп, на которые можно разделить популяцию в соответствии с распределением значений конкретной переменной». и «каждое из 99 промежуточных значений случайной величины, которые делят частотное распределение на 100 таких групп».
Википедия говорит, что «20-й процентиль - это значение, ниже которого может быть найдено 20% наблюдений». Но действительно ли это означает «значение, ниже или равное которому, можно найти 20% наблюдений», т. Е. «Значение, для которого 20 % значений <= к нему ". Если бы это было просто <, а не <=, то по этой причине 100-й процентиль будет значением, ниже которого могут быть найдены 100% значений. Я слышал это как аргумент, что не может быть 100-го процентиля, потому что у вас не может быть числа, где под ним 100% чисел. Но я думаю, что, возможно, тот аргумент, что у вас не может быть 100-го процентиля, неверен и основан на ошибке, что определение процентиля включает в себя <= not <. (или> = не>). Таким образом, сотый процентиль будет окончательным числом и будет>
Ответы:
Оба эти значения процентиля , квартиля и т. Д. Широко используются. Проще всего показать разницу с квартилями:
смысл «делителя» - есть 3 квартили, которые представляют собой значения, разделяющие распределение (или выборку) на 4 равные части:
(Иногда это используется с включенными значениями max и min, поэтому 5 квартилей пронумерованы от 0 до 4; обратите внимание, что это не противоречит приведенной выше нумерации, а только расширяет ее.)
смысл «бин»: есть 4 квартили, подмножества, на которые эти 3 значения делят распределение (или выборку)
Ни одно использование не может быть разумно названо «неправильным»: оба используются многими опытными практиками, и оба появляются в большом количестве авторитетных источников (учебники, технические словари и тому подобное).
Что касается квартилей, то используемый смысл обычно ясен из контекста: говорить о значении в третьем квартиле может быть только смыслом «мусорного ведра», тогда как говоря о всех значениях ниже третьего квартиля, скорее всего, означает смысл «делителя». С процентилями различие чаще неясно, но оно также не так существенно для большинства целей, так как 1% распределения настолько мал - узкая полоса - это приблизительно линия. Говоря о всех, кто выше 80-го процентиля, может означать верхние 20% или верхние 19%, но в неформальном контексте это не является существенным отличием, и в строгой работе необходимое значение должно быть, по-видимому, разъяснено остальным контекстом.
(Части этого ответа адаптированы из /math/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles , который также дает цитаты + ссылки.)
источник
Примите этот ответ с крошкой соли - он начался довольно неправильно, и я все еще решаю, что с ним делать.
Вопрос частично о языке и использовании, тогда как этот ответ сосредоточен на математике. Я надеюсь, что математика обеспечит основу для понимания различных способов использования.
Пример 1): я оставлю это напоследок; Продолжай читать.
Другой пример 2): для равномерного распределения на двух непересекающихся интервалах от 0 до 1 и от 2 до 3, CDF выглядит следующим образом.
Большинство квантилей этого распределения существуют и являются уникальными, но медиана (50-й процентиль) по своей сути неоднозначна. В R они идут на полпути:
quantile(c(runif(100), runif(100) + 2), 0.5)
возвращает около 1,5.Для 60-го процентиля R возвращает 1 (
quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)
). Для 65-го процентиля R также возвращает 1. Вы можете думать об этом как о проведении 100 наблюдений, ранжировании их от низкого до высокого и возвращении 60-го или 65-го элемента. Если вы сделаете это, вы чаще всего получите 1.Когда дело доходит до реальных данных, все распределения являются дискретными. (Эмпирический CDF
runif(100)
илиnp.random.random(100)
имеет 100 приращений, сгруппированных около 0,5.) Но вместо того, чтобы рассматривать их как дискретные,quantile
функция R, похоже, рассматривает их как выборки из непрерывных распределений. Например, медиана (50-й процентиль или 0,5 квантиль) выборки 3,4, 5, 6, 7, 8 задается как 5,5. Если вы возьмете 2n выборок из униф (3,8) распределения и возьмете любое число между n-й и (n + 1) -ой выборкой, вы сойдетесь на 5,5 при увеличении n.Интересно также рассмотреть дискретное равномерное распределение с равной вероятностью попадания 3,4,5,6,7,8. (Бросок кубика плюс два.) Если вы воспользуетесь методом выборки и ранга, описанным выше для распределения Пуассона, вы обычно получите 5 или 6. По мере увеличения выборки распределение для числа на полпути вверх будет сходиться на половину. пять с половиной шестерок. 5.5 здесь тоже кажется разумным компромиссом.
источник
R
, например, типаquantile(0)
.Меня учили, что наблюдение в n-м процентиле было больше, чем n% наблюдений в рассматриваемом наборе данных. Что для меня означает, что нет 0-го или 100-го процентиля. Ни одно наблюдение не может превышать 100% наблюдений, поскольку оно составляет часть этих 100% (и аналогичная логика применяется в случае 0).
Изменить: Для чего это стоит, это также согласуется с неакадемическим использованием термина, с которым я столкнулся: «X находится в n-м процентиле » означает, что процентиль является группой, а не границей.
У меня, к сожалению, нет источника для этого, на который я могу вам указать.
источник
Существуют и другие способы расчета процентилей, которые не являются единственными. Взято из этого источника .
Пример из тех же заметок для иллюстрации:
Нет.
в результате чего
источник
Примечание. Я приму чужой ответ, а не мой. Но я вижу некоторые полезные комментарии, поэтому я просто пишу ответ, в котором упоминаются те.
На основании ответа Ника "-iles" для верхних полпроцентов
кажется, что термины двусмысленны, и я полагаю (исходя из моего понимания этого поста), лучшая терминология была бы X% -ой точкой, и X% -Y% группой; такая квантильная точка (так для квартильных точек, которые могут быть от 0 до 4); квантильная группа от X квантильной точки до Y квантильной точки.
В любом случае можно получить 101 для процентилей, хотя один комментарий предполагает, что можно сослаться на 101 балл (я полагаю, если вы посчитали процентильные баллы и только целые числа), но даже тогда, если говорить о 1, 2, 3, процентиле или квантиль, он считается, и первое не может считаться как 0, и вы не можете иметь, например, более 4 квартилей или более 100 процентилей. Так что, если говорить 1, 2, 3, эта терминология не может в действительности относиться к точке 0. Если кто-то сказал 0-ю точку, то, хотя понятно, что они означают точку 0, я думаю, что они действительно должны сказать квантильную точку 0. Или группа квантилей в точке 0. Даже компьютерные ученые не сказали бы 0th; даже они считают первый элемент как 1, и если они называют его элементом 0, это индексация от 0, а не количество.
В комментарии упоминается «Не может быть 100. Либо 99, либо 101, в зависимости от того, считаете ли вы максимум и минимум». Я думаю, что есть случай для 99 или 101, когда речь идет о квантильных точках, а не о группах, хотя я бы не сказал 0-й. Для n элементов индекс может идти от 0 ... n-1, и никто не будет писать th / st, например 1-й, 2-й и т. Д., В индексе (если, возможно, индекс не выполнил индексирование первого элемента как 1). Но индекс, начинающий первый элемент с индекса 0, не является первым, вторым и третьим счетом. Например, элемент с индексом 0 - это первый элемент, никто не сказал бы 0-й, а второй элемент - как первый.
источник