Если я вычислю медиану достаточно большого числа наблюдений, взятых из одного и того же распределения, будет ли в центральной предельной теореме аппроксимация распределения медиан приближаться к нормальному? Насколько я понимаю, это верно для большого количества образцов, но верно ли это для медиан?
Если нет, каково основное распределение выборочных медиан?
Ответы:
Если вы работаете в терминах индикаторных переменных (то естьZi=1 если Xi≤x и 0 противном случае), вы можете напрямую применить центральную предельную теорему к среднему значению Z , а с помощью метода Дельта превратить это в асимптотическое нормальное распределение для F−1X(Z¯) , который , в свою очередь , означает , что вы получите асимптотическую нормальность для стационарных квантилей X .
Так что не только медиана, но квартили, 90-й процентиль и т. Д.
Неплотно, если мы говорим оq й пробы квантиля в достаточно больших выборках, получаю , что это будет приблизительно иметь нормальное распределение со средним по q е населения квантиль xq и дисперсия q(1−q)/(nfX(xq)2) .
Следовательно , для медианы (q=1/2 ), дисперсия в достаточно больших образцах будет приблизительно 1/(4nfX(μ~)2) .
Конечно, вам нужно выполнить все условия на этом пути, чтобы они работали не во всех ситуациях, а для непрерывных распределений, где плотность в квантиле населения положительна и дифференцируема и т. Д., ...
Кроме того, это не относится к экстремальным квантилям, потому что CLT не срабатывает (среднее значение Z не будет асимптотически нормальным). Вам нужна другая теория для экстремальных ценностей.
Редактировать: критика вубера верна; это сработало бы, если быx был медианой населения, а не медианой выборки. Аргумент должен быть изменен, чтобы фактически работать должным образом.
источник
Основная идея заключается в том, что выборочное распределение медианы легко выразить в терминах функции распределения, но сложнее выразить в терминах медианного значения. Как только мы поймем, как функция распределения может повторно выражать значения как вероятности и обратно, легко получить точное выборочное распределение медианы. Небольшой анализ поведения функции распределения вблизи ее медианы необходим, чтобы показать, что это асимптотически нормально.
(Тот же самый анализ работает для выборочного распределения любого квантиля, а не только медианы.)
Я не буду пытаться быть строгим в этом изложении, но я делаю это шаг за шагом, которые легко обоснованы строгим образом, если у вас есть желание сделать это.
Интуиция
Это снимки коробки, содержащей 70 атомов горячего атомарного газа:
На каждом изображении я обнаружил местоположение, показанное красной вертикальной линией, которое разделяет атомы на две равные группы между левой (нарисованные как черные точки) и правой (белые точки). Это медиана позиций: 35 атомов лежат слева и 35 справа. Медианы меняются, потому что атомы движутся случайным образом вокруг коробки.
Мы заинтересованы в распределении этой средней позиции. На такой вопрос отвечает обратная процедура: сначала нарисуем где-нибудь вертикальную линию, скажем, в точке . Какова вероятность того, что половина атомов окажется слева от x, а половина справа? Атомы слева по отдельности имели шансы х оказаться слева. Атомы справа по отдельности имели шансы 1 - x оказаться справа. Предполагая, что их позиции статистически независимы, шансы умножаются, давая х 35 ( 1 - х ) 35x x x 1−x x35(1−x)35 для шанса этой конкретной конфигурации. Эквивалентная конфигурация может быть достигнута для другого разделения атомов на две 35- элементные части. Добавление этих чисел для всех возможных таких разбиений дает шанс70 35
где - общее количество атомов, а пропорционально количеству расщеплений атомов на две равные подгруппы.C nn C n
Эта формула определяет распределение медианы как бета распределение(n/2+1,n/2+1) .
Теперь рассмотрим коробку с более сложной формой:
Еще раз медианы меняются. Поскольку ящик расположен низко возле центра, его объем там невелик: небольшое изменение объема, занимаемого левой половиной атомов (опять же черными) - или, мы могли бы также признать, область слева , как показано на этих фигурах - соответствует сравнительно большому изменению в горизонтальном положении медианы. Фактически, поскольку область, представленная небольшим горизонтальным сечением коробки, пропорциональна высоте , изменения медианы делятся на высоту коробки. Это заставляет медиану быть более изменчивой для этого бокса, чем для квадратного прямоугольника, потому что этот намного ниже в середине.
Короче говоря, когда мы измеряем положение медианы с точки зрения площади (слева и справа), исходный анализ (для квадратной рамки) остается неизменным. Форма прямоугольника усложняет распределение, только если мы настаиваем на измерении медианы с точки зрения его горизонтального положения. Когда мы делаем это, отношения между областью и позиционным представлением обратно пропорциональны высоте блока.
Из этих картинок можно многому научиться. Ясно, что когда в (одном) ящике находится мало атомов, существует большая вероятность того, что половина из них может случайно оказаться кластеризованной далеко в любую сторону. По мере роста числа атомов потенциал такого экстремального дисбаланса уменьшается. Чтобы отследить это, я взял «фильмы» - длинную серию из 5000 кадров - для изогнутой коробки, заполненной , затем , затем и, наконец, атомами, и отметил медианы. Вот гистограммы средних позиций:15 75 3753 15 75 375
Ясно, что для достаточно большого числа атомов распределение их срединного положения начинает выглядеть колоколообразным и сужается: это похоже на результат центральной предельной теоремы, не так ли?
Количественные результаты
«Коробка», конечно, изображает плотность вероятности некоторого распределения: ее верх - график функции плотности (PDF). Таким образом, области представляют вероятности. Размещение точек случайным образом и независимо внутри блока и наблюдение за их горизонтальным положением - это один из способов получить выборку из распределения. (Это идея выборки отклонения. )n
Следующая фигура соединяет эти идеи.
Это выглядит сложно, но это действительно довольно просто. Здесь четыре сюжета:
Верхний график показывает PDF распределения вместе с одной случайной выборкой размером . Значения, превышающие медиану, показаны в виде белых точек; значения меньше, чем медиана в виде черных точек. Ему не нужен вертикальный масштаб, потому что мы знаем, что общая площадь равна единице.n
Средний график - это кумулятивная функция распределения для того же распределения: она использует высоту для обозначения вероятности. Он разделяет свою горизонтальную ось с первым сюжетом. Его вертикальная ось должна идти от до потому что она представляет вероятности.10 1
Левый график предназначен для чтения вбок: это PDF дистрибутива Beta . Он показывает, как медиана в квадрате будет меняться, когда медиана измеряется в терминах областей слева и справа от середины (а не измеряется по горизонтальному положению). Я нарисовал случайных точек из этого PDF, как показано, и соединил их горизонтальными пунктирными линиями с соответствующими местоположениями на оригинальном CDF: это то, как объемы (измеренные слева) преобразуются в позиции (измеренные сверху, по центру). и нижняя графика). Одна из этих точек фактически соответствует медиане, показанной на верхнем графике; Я нарисовал сплошную вертикальную линию, чтобы показать это.16(n/2+1,n/2+1) 16
Нижний график представляет собой плотность выборки медианы, измеренную по ее горизонтальному положению. Получается путем преобразования области (на левом графике) в позицию. Формула преобразования дается обратным к исходному CDF: это просто определение обратного CDF! (Другими словами, CDF преобразует положение в область слева; обратный CDF преобразует обратно из области в положение.) Я построил вертикальные пунктирные линии, показывающие, как случайные точки на левом графике преобразуются в случайные точки на нижнем графике. , Этот процесс чтения поперек и затем вниз говорит нам, как перейти от области к позиции.
Пусть - CDF исходного распределения (средний график), а - CDF бета-распределения. Чтобы найти вероятность того, что медиана лежит слева от некоторой позиции , сначала используйте чтобы получить область слева от в поле: это сам . Распределение бета слева говорит нам о вероятности того, что половина атомов будет лежать в этом объеме, давая : это CDF медианного положения . Чтобы найти его PDF (как показано на нижнем графике), возьмите производную:F G x F x F(x) G(F(x))
где - PDF (верхний график), а - бета-PDF (левый график).f g
Это точная формула для распределения медианы для любого непрерывного распределения. (С некоторой осторожностью при интерпретации он может применяться к любому распределению, независимо от того, является ли оно непрерывным или нет.)
Асимптотические результаты
Когда очень велико и не имеет скачка в своем среднем, образец медиана должна изменяться близко вокруг истинного срединных распределения. Кроме того, предполагая, что PDF является непрерывным вблизи , в предыдущей формуле не сильно изменится от его значения в заданного Более того, также не сильно изменится от его значения: до первого порядка,n F μ f μ f(x) μ, f(μ). F
Таким образом, с постоянно улучшающимся приближением, когда становится большим,n
Это всего лишь изменение местоположения и масштаба распределения бета-версий. Масштабирование с помощью разделит его дисперсию на (что лучше было бы отличным от нуля!). Кстати, дисперсия бета очень близка к .f(μ) f(μ)2 (n/2+1,n/2+1) n/4
Этот анализ можно рассматривать как применение метода Дельта .
Наконец, бета является приблизительно нормальной для больших . Есть много способов увидеть это; возможно, самое простое - взглянуть на логарифм его PDF около :(n/2+1,n/2+1) n 1/2
(Константы и просто нормализуют общую площадь до единицы.) Таким образом, через третий порядок по , это то же самое, что и журнал нормального PDF с дисперсией (Этот аргумент сделан строгим с помощью использования характерных или кумулянт-генерирующих функций вместо журнала PDF.)C C′ x, 1/(4n).
В целом, мы заключаем, что
Распределение медианы выборки имеет дисперсию примерно ,1/(4nf(μ)2)
и это примерно нормально для больших ,n
все при условии, что PDF непрерывен и отличен от нуля при медианеf μ.
источник
R
, возможно, используяlayout
, но на самом деле это было сделано с Mathematica 9.@EngrStudent освещающий ответ говорит нам, что мы должны ожидать различных результатов, когда распределение непрерывно , и когда оно дискретно («красные» графики, где асимптотическое распределение медианы выборки не выглядит эффектно, чтобы выглядеть нормальным, соответствуют распределениям Binomial (3), геометрический (11), гипергеометрический (12), отрицательный бином (14), пуассон (18), дискретная униформа (22).
И это действительно так. Когда распределение дискретно, все усложняется. Я предоставлю доказательство для Абсолютно Непрерывного Случая, по сути, сделав не более, чем детализируя ответ, уже предоставленный @Glen_b, а затем немного расскажу о том, что происходит, когда распределение является дискретным, предоставляя также недавнюю ссылку для всех, кто интересуется дайвингом. в.
АБСОЛЮТНО НЕПРЕРЫВНОЕ РАСПРЕДЕЛЕНИЕ{X1,...Xn} FX(x)=P(Xi≤x) F′X(x)=fX(x) Zi≡I{Xi≤x} I{} Zi E(Zi)=E(I{Xi≤x})=P(Xi≤x)=FX(x),Var(Zi)=FX(x)[1−FX(x)],∀i
Рассмотрим набор iid абсолютно непрерывных случайных величин с функцией распределения (cdf) и функцией плотности . Определите где - это функция индикатора. Следовательно, является бернуллиевым т.
Пусть будет средним для этих iid Бернулли, определенным для фиксированного как что означает, что Применяется центральная предельная теорема, и мы имеемYn(x) x Yn(x)=1n∑i=1nZi E[Yn(x)]=FX(x),Var(Yn(x))=(1/n)FX(x)[1−FX(x)]
Обратите внимание, что т. Е. Не эмпирическая функция распределения. Применяя «Дельта-метод», мы получаем, что для непрерывной и дифференцируемой функции с ненулевой производной в интересующем нас месте получаемYn(x)=F^n(x) g(t) g′(t)
Теперь выберите где обозначает обратную функцию. Это непрерывная и дифференцируемая функция (поскольку ), и по теореме об обратной функции мы имеемg(t)≡F−1X(t),t∈(0,1) −1 FX(x)
Вставив эти результаты на в полученном асимптотическом результате дельта-метода, мы имеемg
и упрощение,
.. для любого фиксированного . Теперь установите , (истинную) медиану населения. Тогда мы имеем и приведенный выше общий результат становится для нашего интересного случаяx x=m FX(m)=1/2
Но сходится к медиане выборки . Это потому чтоF−1X(F^n(m)) m^
Правая часть неравенства сходится к а наименьший для которого в конечном итоге , является медианой выборки.1/2 x FX≥1/2
Итак, мы получаем
Дискретные распределения
Когда распределение является дискретным (или когда образец содержит связи) было высказано мнение , что «классическое» определение выборочных квантилей, и , следовательно , медиан также, может ввести в заблуждении , в первую очередь , в качестве теоретической концепции , чтобы быть используется для измерения того, что каждый пытается измерить квантилями.
В любом случае было смоделировано, что согласно этому классическому определению (известному нам всем) асимптотическое распределение медианы выборки является ненормальным и дискретным распределением.
Альтернативное определение выборочных квантилей заключается в использовании концепции функции среднего распределения, которая определяется какFmid(x)=P(X≤x)−12P(X=x)
Определение квантилей выборки через концепцию функции среднего распределения можно рассматривать как обобщение, которое может охватывать как частные случаи непрерывные распределения, так и не столь непрерывные.
Для случая дискретных распределений, среди других результатов, было обнаружено, что медиана выборки, как определено в этой концепции, имеет асимптотически нормальное распределение с ... сложной выглядящей дисперсией.
Большинство из них - недавние результаты. Ссылка - Ma, Y., Genton, MG, & Parzen, E. (2011). Асимптотические свойства выборочных квантилей дискретных распределений. Летопись Института статистической математики, 63 (2), 227-243. , где можно найти обсуждение и ссылки на более старую соответствующую литературу.
источник
Да, и не только для медианы, но и для любого квантиля выборки. Копируя эту статью , написанную Т.С. Фергюсоном, профессором в Калифорнийском университете в Лос-Анджелесе (его страница здесь ), которая интересно занимается совместным распределением выборочного среднего и выборочных квантилей, мы имеем:
Пусть должно быть с функцией распределения , плотностью , средним значением и конечной дисперсией . Пусть и пусть обозначает квантиль , так что . Предположим, что плотность непрерывна и положительна в . Пусть обозначает выборочный квантиль. затем F ( x ) f ( x ) μ σ 2 0 < p < 1 x p pX1,...,Xn F(x) f(x) μ σ2 0<p<1 xp p F F(xp)=p f(x) xp Yn=X(n:⌈np⌉) p
Для (медиана), и у вас есть CLT для медиан,p=1/2⇒xp=m
источник
Мне нравится аналитический ответ, данный Glen_b. Это хороший ответ.
Нужна картинка. Мне нравятся картинки.
Вот области эластичности в ответе на вопрос:
Для стандартного нормального я использовал следующий код MatLab:
и я получил следующий график в качестве вывода:
Так почему бы не сделать это для других 22 или около того «встроенных» дистрибутивов, за исключением использования вероятных участков (где прямая линия означает очень нормальный)?
И вот исходный код для этого:
Когда я вижу аналитическое доказательство, я могу подумать, что «теоретически все они могут подойти», но когда я попробую это, я смогу умерить, что с «есть ряд способов, которые не очень хорошо работают, часто включая дискретные или сильно ограниченные». ценности », и это может заставить меня захотеть быть более осторожным в применении теории ко всему, что стоит денег.
Удачи.
источник