Центральная предельная теорема для выборочных медиан

55

Если я вычислю медиану достаточно большого числа наблюдений, взятых из одного и того же распределения, будет ли в центральной предельной теореме аппроксимация распределения медиан приближаться к нормальному? Насколько я понимаю, это верно для большого количества образцов, но верно ли это для медиан?

Если нет, каково основное распределение выборочных медиан?

user1728853
источник
9
Вам нужны некоторые условия регулярности, чтобы медиана имела нормальное распределение при пересчете в пределе. Чтобы увидеть, что может пойти не так, рассмотрим любое распределение по конечному числу точек, скажем, X равномерное на {1,0,1} .
кардинал
5
Относительно условий регулярности: если базовое распределение имеет плотность, которая дифференцируема при (истинной) медиане, тогда медиана выборки будет иметь асимптотическое нормальное распределение с дисперсией, которая зависит от указанной производной. В целом это справедливо для произвольных квантилей.
кардинал
6
@cardinal Я считаю, что вам нужны дополнительные условия: когда плотность является второй дифференцируемой, равна нулю в медиане и имеет нулевую первую производную там, то асимптотическое распределение медианы выборки будет бимодальным.
whuber
4
@whuber: Да, потому что плотность (а не ее производная, как я случайно указал ранее) входит в дисперсию как обратную величину, значение плотности в этой точке не должно быть нулевым. Извиняюсь за то, что бросил это условие!
кардинал
4
Элементарные контрпримеры могут быть созданы с помощью любого распределения , которая присваивает вероятность 1/2 на интервале (,μ] и вероятность 1/2 , чтобы [μ+δ,) , где δ>0, такие , как Бернулли (1/2) ( μ=0,δ=1 ). Медиана выборки будет меньше или равна μтак часто, как они больше или равны μ+δ . Вероятность того, что медиана не находится в (μ,μ+δ) приближается к 0 для больших выборок, фактически оставляя «пробел» в (μ,μ+δ) в предельном распределении, которое, очевидно, тогда будет ненормальным, независимо от того, как это стандартизировано.
whuber

Ответы:

39

Если вы работаете в терминах индикаторных переменных (то есть Zi=1 если Xix и 0 противном случае), вы можете напрямую применить центральную предельную теорему к среднему значению Z , а с помощью метода Дельта превратить это в асимптотическое нормальное распределение для FX1(Z¯) , который , в свою очередь , означает , что вы получите асимптотическую нормальность для стационарных квантилей X .

Так что не только медиана, но квартили, 90-й процентиль и т. Д.

Неплотно, если мы говорим о q й пробы квантиля в достаточно больших выборках, получаю , что это будет приблизительно иметь нормальное распределение со средним по q е населения квантиль xq и дисперсия q(1q)/(nfX(xq)2) .

Следовательно , для медианы ( q=1/2 ), дисперсия в достаточно больших образцах будет приблизительно 1/(4nfX(μ~)2) .

Конечно, вам нужно выполнить все условия на этом пути, чтобы они работали не во всех ситуациях, а для непрерывных распределений, где плотность в квантиле населения положительна и дифференцируема и т. Д., ...

Кроме того, это не относится к экстремальным квантилям, потому что CLT не срабатывает (среднее значение Z не будет асимптотически нормальным). Вам нужна другая теория для экстремальных ценностей.


Редактировать: критика вубера верна; это сработало бы, если бы x был медианой населения, а не медианой выборки. Аргумент должен быть изменен, чтобы фактически работать должным образом.

Glen_b
источник
5
Я думаю, что одна логическая часть этого объяснения может отсутствовать: как именно использовать индикаторы для получения выборочных медиан? Я могу видеть, как, когда является основной медианой, индикатор X ix будет работать, но этот индикатор не совпадает с медианой выборки или какой-либо ее функцией. xXix
whuber
Как перейти от асимптотических нормальных распределений для к асимптотической нормальности для фиксированных квантилей X? Изменить: Я понял, что ¯ Z становится процентное значение 0-100% , таким образом , квантиль значения асимптотически нормальныFX1(Z¯)Z¯
адам
49

Основная идея заключается в том, что выборочное распределение медианы легко выразить в терминах функции распределения, но сложнее выразить в терминах медианного значения. Как только мы поймем, как функция распределения может повторно выражать значения как вероятности и обратно, легко получить точное выборочное распределение медианы. Небольшой анализ поведения функции распределения вблизи ее медианы необходим, чтобы показать, что это асимптотически нормально.

(Тот же самый анализ работает для выборочного распределения любого квантиля, а не только медианы.)

Я не буду пытаться быть строгим в этом изложении, но я делаю это шаг за шагом, которые легко обоснованы строгим образом, если у вас есть желание сделать это.


Интуиция

Это снимки коробки, содержащей 70 атомов горячего атомарного газа:

фигура 1

На каждом изображении я обнаружил местоположение, показанное красной вертикальной линией, которое разделяет атомы на две равные группы между левой (нарисованные как черные точки) и правой (белые точки). Это медиана позиций: 35 атомов лежат слева и 35 справа. Медианы меняются, потому что атомы движутся случайным образом вокруг коробки.

Мы заинтересованы в распределении этой средней позиции. На такой вопрос отвечает обратная процедура: сначала нарисуем где-нибудь вертикальную линию, скажем, в точке . Какова вероятность того, что половина атомов окажется слева от x, а половина справа? Атомы слева по отдельности имели шансы х оказаться слева. Атомы справа по отдельности имели шансы 1 - x оказаться справа. Предполагая, что их позиции статистически независимы, шансы умножаются, давая х 35 ( 1 - х ) 35xxx1xx35(1x)35для шанса этой конкретной конфигурации. Эквивалентная конфигурация может быть достигнута для другого разделения атомов на две 35- элементные части. Добавление этих чисел для всех возможных таких разбиений дает шанс7035

Pr(x is a median)=Cxn/2(1x)n/2

где - общее количество атомов, а пропорционально количеству расщеплений атомов на две равные подгруппы.C nnCn

Эта формула определяет распределение медианы как бета распределение(n/2+1,n/2+1) .

Теперь рассмотрим коробку с более сложной формой:

фигура 2

Еще раз медианы меняются. Поскольку ящик расположен низко возле центра, его объем там невелик: небольшое изменение объема, занимаемого левой половиной атомов (опять же черными) - или, мы могли бы также признать, область слева , как показано на этих фигурах - соответствует сравнительно большому изменению в горизонтальном положении медианы. Фактически, поскольку область, представленная небольшим горизонтальным сечением коробки, пропорциональна высоте , изменения медианы делятся на высоту коробки. Это заставляет медиану быть более изменчивой для этого бокса, чем для квадратного прямоугольника, потому что этот намного ниже в середине.

Короче говоря, когда мы измеряем положение медианы с точки зрения площади (слева и справа), исходный анализ (для квадратной рамки) остается неизменным. Форма прямоугольника усложняет распределение, только если мы настаиваем на измерении медианы с точки зрения его горизонтального положения. Когда мы делаем это, отношения между областью и позиционным представлением обратно пропорциональны высоте блока.

Из этих картинок можно многому научиться. Ясно, что когда в (одном) ящике находится мало атомов, существует большая вероятность того, что половина из них может случайно оказаться кластеризованной далеко в любую сторону. По мере роста числа атомов потенциал такого экстремального дисбаланса уменьшается. Чтобы отследить это, я взял «фильмы» - длинную серию из 5000 кадров - для изогнутой коробки, заполненной , затем , затем и, наконец, атомами, и отметил медианы. Вот гистограммы средних позиций:15 75 37531575375

Рисунок 3

Ясно, что для достаточно большого числа атомов распределение их срединного положения начинает выглядеть колоколообразным и сужается: это похоже на результат центральной предельной теоремы, не так ли?


Количественные результаты

«Коробка», конечно, изображает плотность вероятности некоторого распределения: ее верх - график функции плотности (PDF). Таким образом, области представляют вероятности. Размещение точек случайным образом и независимо внутри блока и наблюдение за их горизонтальным положением - это один из способов получить выборку из распределения. (Это идея выборки отклонения. )n

Следующая фигура соединяет эти идеи.

Рисунок 4

Это выглядит сложно, но это действительно довольно просто. Здесь четыре сюжета:

  1. Верхний график показывает PDF распределения вместе с одной случайной выборкой размером . Значения, превышающие медиану, показаны в виде белых точек; значения меньше, чем медиана в виде черных точек. Ему не нужен вертикальный масштаб, потому что мы знаем, что общая площадь равна единице.n

  2. Средний график - это кумулятивная функция распределения для того же распределения: она использует высоту для обозначения вероятности. Он разделяет свою горизонтальную ось с первым сюжетом. Его вертикальная ось должна идти от до потому что она представляет вероятности.101

  3. Левый график предназначен для чтения вбок: это PDF дистрибутива Beta . Он показывает, как медиана в квадрате будет меняться, когда медиана измеряется в терминах областей слева и справа от середины (а не измеряется по горизонтальному положению). Я нарисовал случайных точек из этого PDF, как показано, и соединил их горизонтальными пунктирными линиями с соответствующими местоположениями на оригинальном CDF: это то, как объемы (измеренные слева) преобразуются в позиции (измеренные сверху, по центру). и нижняя графика). Одна из этих точек фактически соответствует медиане, показанной на верхнем графике; Я нарисовал сплошную вертикальную линию, чтобы показать это.16(n/2+1,n/2+1)16

  4. Нижний график представляет собой плотность выборки медианы, измеренную по ее горизонтальному положению. Получается путем преобразования области (на левом графике) в позицию. Формула преобразования дается обратным к исходному CDF: это просто определение обратного CDF! (Другими словами, CDF преобразует положение в область слева; обратный CDF преобразует обратно из области в положение.) Я построил вертикальные пунктирные линии, показывающие, как случайные точки на левом графике преобразуются в случайные точки на нижнем графике. , Этот процесс чтения поперек и затем вниз говорит нам, как перейти от области к позиции.

Пусть - CDF исходного распределения (средний график), а - CDF бета-распределения. Чтобы найти вероятность того, что медиана лежит слева от некоторой позиции , сначала используйте чтобы получить область слева от в поле: это сам . Распределение бета слева говорит нам о вероятности того, что половина атомов будет лежать в этом объеме, давая : это CDF медианного положения . Чтобы найти его PDF (как показано на нижнем графике), возьмите производную:FGxFxF(x)G(F(x))

ddxG(F(x))=G(F(x))F(x)=g(F(x))f(x)

где - PDF (верхний график), а - бета-PDF (левый график).fg

Это точная формула для распределения медианы для любого непрерывного распределения. (С некоторой осторожностью при интерпретации он может применяться к любому распределению, независимо от того, является ли оно непрерывным или нет.)


Асимптотические результаты

Когда очень велико и не имеет скачка в своем среднем, образец медиана должна изменяться близко вокруг истинного срединных распределения. Кроме того, предполагая, что PDF является непрерывным вблизи , в предыдущей формуле не сильно изменится от его значения в заданного Более того, также не сильно изменится от его значения: до первого порядка,nFμfμ f(x)μ,f(μ).F

F(x)=F(μ+(xμ))F(μ)+F(μ)(xμ)=1/2+f(μ)(xμ).

Таким образом, с постоянно улучшающимся приближением, когда становится большим,n

g(F(x))f(x)g(1/2+f(μ)(xμ))f(μ).

Это всего лишь изменение местоположения и масштаба распределения бета-версий. Масштабирование с помощью разделит его дисперсию на (что лучше было бы отличным от нуля!). Кстати, дисперсия бета очень близка к .f(μ)f(μ)2(n/2+1,n/2+1)n/4

Этот анализ можно рассматривать как применение метода Дельта .

Наконец, бета является приблизительно нормальной для больших . Есть много способов увидеть это; возможно, самое простое - взглянуть на логарифм его PDF около :(n/2+1,n/2+1)n1/2

log(C(1/2+x)n/2(1/2x)n/2)=n2log(14x2)+C=C2nx2+O(x4).

(Константы и просто нормализуют общую площадь до единицы.) Таким образом, через третий порядок по , это то же самое, что и журнал нормального PDF с дисперсией (Этот аргумент сделан строгим с помощью использования характерных или кумулянт-генерирующих функций вместо журнала PDF.)CCx,1/(4n).

В целом, мы заключаем, что

  • Распределение медианы выборки имеет дисперсию примерно ,1/(4nf(μ)2)

  • и это примерно нормально для больших ,n

  • все при условии, что PDF непрерывен и отличен от нуля при медианеfμ.

Whuber
источник
Мне нравится эта четвертая фигура. Вы сделали это с помощью R?
EngrStudent - Восстановить Монику
@Engr Я, наверное, мог бы сделать такой же R, возможно, используя layout, но на самом деле это было сделано с Mathematica 9.
whuber
1
«Это вещь красоты.
EngrStudent - Восстановить Монику
@whuber не бета (n / 2 + 1, n / 2 + 1) в бета-версии (1,1) до? См., Например, ine.pt/revstat/pdf/rs080204.pdf
Тим
1
@Tim Я не понимаю актуальность ссылки на предыдущий, но я благодарен вам за то, что вы указали, что правильное имя бета-дистрибутива, указанное в разделе «Интуиция», - бета . Я исправлю это везде, где это происходит (что обсуждается в нескольких местах). (n/2+1,n/2+1)
whuber
18

@EngrStudent освещающий ответ говорит нам, что мы должны ожидать различных результатов, когда распределение непрерывно , и когда оно дискретно («красные» графики, где асимптотическое распределение медианы выборки не выглядит эффектно, чтобы выглядеть нормальным, соответствуют распределениям Binomial (3), геометрический (11), гипергеометрический (12), отрицательный бином (14), пуассон (18), дискретная униформа (22).

И это действительно так. Когда распределение дискретно, все усложняется. Я предоставлю доказательство для Абсолютно Непрерывного Случая, по сути, сделав не более, чем детализируя ответ, уже предоставленный @Glen_b, а затем немного расскажу о том, что происходит, когда распределение является дискретным, предоставляя также недавнюю ссылку для всех, кто интересуется дайвингом. в.

АБСОЛЮТНО НЕПРЕРЫВНОЕ РАСПРЕДЕЛЕНИЕ
Рассмотрим набор iid абсолютно непрерывных случайных величин с функцией распределения (cdf) и функцией плотности . Определите где - это функция индикатора. Следовательно, является бернуллиевым т. {X1,...Xn}FX(x)=P(Xix)FX(x)=fX(x)ZiI{Xix}I{}Zi

E(Zi)=E(I{Xix})=P(Xix)=FX(x),Var(Zi)=FX(x)[1FX(x)],i

Пусть будет средним для этих iid Бернулли, определенным для фиксированного как что означает, что Применяется центральная предельная теорема, и мы имеемYn(x)x

Yn(x)=1ni=1nZi
E[Yn(x)]=FX(x),Var(Yn(x))=(1/n)FX(x)[1FX(x)]

n(Yn(x)FX(x))dN(0,FX(x)[1FX(x)])

Обратите внимание, что т. Е. Не эмпирическая функция распределения. Применяя «Дельта-метод», мы получаем, что для непрерывной и дифференцируемой функции с ненулевой производной в интересующем нас месте получаемYn(x)=F^n(x)g(t)g(t)

n(g[F^n(x)]g[FX(x)])dN(0,FX(x)[1FX(x)](g[FX(x)])2)

Теперь выберите где обозначает обратную функцию. Это непрерывная и дифференцируемая функция (поскольку ), и по теореме об обратной функции мы имеемg(t)FX1(t),t(0,1)1FX(x)

g(t)=ddtFX1(t)=1fx(FX1(t))

Вставив эти результаты на в полученном асимптотическом результате дельта-метода, мы имеемg

n(FX1(F^n(x))FX1(FX(x)))dN(0,FX(x)[1FX(x)][fx(FX1(FX(x)))]2)

и упрощение,

n(FX1(F^n(x))x)dN(0,FX(x)[1FX(x)][fx(x)]2)

.. для любого фиксированного . Теперь установите , (истинную) медиану населения. Тогда мы имеем и приведенный выше общий результат становится для нашего интересного случаяxx=mFX(m)=1/2

n(FX1(F^n(m))m)dN(0,1[2fx(m)]2)

Но сходится к медиане выборки . Это потому чтоFX1(F^n(m))m^

FX1(F^n(m))=inf{x:FX(x)F^n(m)}=inf{x:FX(x)1ni=1nI{Xim}}

Правая часть неравенства сходится к а наименьший для которого в конечном итоге , является медианой выборки.1/2xFX1/2

Итак, мы получаем

n(m^m)dN(0,1[2fx(m)]2)
который является центральным Предельная теорема для выборочной медианы для абсолютно непрерывных распределений.

Дискретные распределения
Когда распределение является дискретным (или когда образец содержит связи) было высказано мнение , что «классическое» определение выборочных квантилей, и , следовательно , медиан также, может ввести в заблуждении , в первую очередь , в качестве теоретической концепции , чтобы быть используется для измерения того, что каждый пытается измерить квантилями.
В любом случае было смоделировано, что согласно этому классическому определению (известному нам всем) асимптотическое распределение медианы выборки является ненормальным и дискретным распределением.

Альтернативное определение выборочных квантилей заключается в использовании концепции функции среднего распределения, которая определяется как

Fmid(x)=P(Xx)12P(X=x)

Определение квантилей выборки через концепцию функции среднего распределения можно рассматривать как обобщение, которое может охватывать как частные случаи непрерывные распределения, так и не столь непрерывные.

Для случая дискретных распределений, среди других результатов, было обнаружено, что медиана выборки, как определено в этой концепции, имеет асимптотически нормальное распределение с ... сложной выглядящей дисперсией.

Большинство из них - недавние результаты. Ссылка - Ma, Y., Genton, MG, & Parzen, E. (2011). Асимптотические свойства выборочных квантилей дискретных распределений. Летопись Института статистической математики, 63 (2), 227-243. , где можно найти обсуждение и ссылки на более старую соответствующую литературу.

Алекос Пападопулос
источник
2
(+1) За статью. Это отличный ответ.
Алекс Уильямс
Не могли бы вы объяснить, почему сходится к образцу медианы ? FX1(F^n(m))m^
kasa
Я знаю, что в распределении, но я не вижу, как выборка медиана равнаF^n(m)FX(m)m^FX1(F^n(m))
kasa
1
@kasa Я немного уточнил этот вопрос.
Алекос Пападопулос
Извините, что продолжаю поднимать этот вопрос снова: но наименьший для которого в конечном итоге , является медианой населения, а не медианой выборки, не так ли? xFX(x)1/2
Каса
10

Да, и не только для медианы, но и для любого квантиля выборки. Копируя эту статью , написанную Т.С. Фергюсоном, профессором в Калифорнийском университете в Лос-Анджелесе (его страница здесь ), которая интересно занимается совместным распределением выборочного среднего и выборочных квантилей, мы имеем:

Пусть должно быть с функцией распределения , плотностью , средним значением и конечной дисперсией . Пусть и пусть обозначает квантиль , так что . Предположим, что плотность непрерывна и положительна в . Пусть обозначает выборочный квантиль. затем F ( x ) f ( x ) μ σ 2 0 < p < 1 x p pX1,...,XnF(x)f(x)μσ20<p<1xppFF(xp)=pf(x)xpYn=X(n:np)p

n(Ynxp)dN(0,p(1p)/(f(xp))2)

Для (медиана), и у вас есть CLT для медиан,p=1/2xp=m

n(Ynm)dN(0,[2f(m)]2)
Алекос Пападопулос
источник
1
Приятно. Стоит отметить, что дисперсию медианы выборки оценить не так просто, как среднюю выборку.
Майкл М
@Alecos - как ты получил два ответа на этот вопрос?
EngrStudent - Восстановить Монику
1
@EngrStudent Система позволяет это, она просто просит вас подтвердить, что вы действительно хотите добавить второй ответ.
Алекос Пападопулос
8

Мне нравится аналитический ответ, данный Glen_b. Это хороший ответ.

Нужна картинка. Мне нравятся картинки.

Вот области эластичности в ответе на вопрос:

  • В мире много раздач. Пробег может меняться.
  • Достаточный имеет разные значения. В качестве контрпримера к теории иногда требуется один контрпример для «достаточного» соответствия. Для демонстрации низкой частоты дефектов с использованием биномиальной неопределенности могут потребоваться сотни или тысячи образцов.

Для стандартного нормального я использовал следующий код MatLab:

mysamples=1000;

loops=10000;

y1=median(normrnd(0,1,mysamples,loops));

cdfplot(y1)

и я получил следующий график в качестве вывода:

введите описание изображения здесь

Так почему бы не сделать это для других 22 или около того «встроенных» дистрибутивов, за исключением использования вероятных участков (где прямая линия означает очень нормальный)?

введите описание изображения здесь

И вот исходный код для этого:

mysamples=1000;

loops=600;

y=zeros(loops,23);

y(:,1)=median(random('Normal', 0,1,mysamples,loops));

y(:,2)=median(random('beta', 5,0.2,mysamples,loops));
y(:,3)=median(random('bino', 10,0.5,mysamples,loops));
y(:,4)=median(random('chi2', 10,mysamples,loops));
y(:,5)=median(random('exp', 700,mysamples,loops));

y(:,6)=median(random('ev', 700,mysamples,loops));
y(:,7)=median(random('f', 5,3,mysamples,loops));
y(:,8)=median(random('gam', 10,5,mysamples,loops));
y(:,9)=median(random('gev', 0.24, 1.17, 5.8,mysamples,loops));
y(:,10)=median(random('gp', 0.12, 0.81,mysamples,loops));

y(:,11)=median(random('geo', 0.03,mysamples,loops));
y(:,12)=median(random('hyge', 1000,50,20,mysamples,loops));
y(:,13)=median(random('logn', log(20000),1.0,mysamples,loops));
y(:,14)=median(random('nbin', 2,0.11,mysamples,loops));
y(:,15)=median(random('ncf', 5,20,10,mysamples,loops));

y(:,16)=median(random('nct', 10,1,mysamples,loops));
y(:,17)=median(random('ncx2', 4,2,mysamples,loops));
y(:,18)=median(random('poiss', 5,mysamples,loops));
y(:,19)=median(random('rayl', 0.5,mysamples,loops));
y(:,20)=median(random('t', 5,mysamples,loops));

y(:,21)=median(random('unif',0,1,mysamples,loops));
y(:,22)=median(random('unid', 5,mysamples,loops));
y(:,23)=median(random('wbl', 0.5,2,mysamples,loops));


figure(1); clf
hold on

for i=2:23
    subplot(4,6,i-1)

    probplot(y(:,i))
    title(['Probplot of ' num2str(i)])
    axis tight

    if not(isempty(find(i==[3,11,12,14,18,22])))
        set(gca,'Color','r')
    end

end

Когда я вижу аналитическое доказательство, я могу подумать, что «теоретически все они могут подойти», но когда я попробую это, я смогу умерить, что с «есть ряд способов, которые не очень хорошо работают, часто включая дискретные или сильно ограниченные». ценности », и это может заставить меня захотеть быть более осторожным в применении теории ко всему, что стоит денег.

Удачи.

EngrStudent - Восстановить Монику
источник
Я ошибаюсь или распределение, для которого медиана обычно не распределяется, является дискретным?
SEF