Асимптотическое распределение выборочной дисперсии ненормального образца

19

Это более общий подход к проблеме, поставленной этим вопросом . После получения асимптотического распределения выборочной дисперсии мы можем применить метод Дельта, чтобы получить соответствующее распределение для стандартного отклонения.

Пусть выборка размера из iid ненормальных случайных величин , со средним значением и дисперсией . Установите среднее значение выборки и выборочную дисперсию как { X i } ,n{Xi},i=1,...,nμσ2

x¯=1ni=1nXi,s2=1n1i=1n(Xix¯)2

Мы знаем, что

E(s2)=σ2,Var(s2)=1n(μ4n3n1σ4)

где , и мы ограничиваем наше внимание распределениями, для которых какие моменты должны существовать и быть конечными, существуют и конечны.μ4=E(Xiμ)4

Это держит это

n(s2σ2)dN(0,μ4σ4)?
Алекос Пападопулос
источник
Хех. Я только что опубликовал в другой теме, не понимая, что вы разместили это. Есть ряд вещей, которые можно найти в CLT, примененных к дисперсии (например, p3-4 здесь ). Хороший ответ, кстати.
Glen_b
Благодарю. Да, я нашел это. Но они пропускают дело, на которое указал @whuber. Они даже дают пример Бернулли с общим ! (основание стр. 4). Я расширяю свой ответ, чтобы охватить случай . pp=1/2
Алекос Пападопулос
Да, я видел, что они рассматривали Бернулли, но не рассматривали этот особый случай. Я думаю, что упоминание различия для масштабированного Бернулли (равный вероятностный дихотомический случай) является одной из причин (среди нескольких других), почему важно обсудить это в ответе здесь (а не просто в комментарии) - не в последнюю очередь, что это для поиска.
Glen_b

Ответы:

20

В зависимости от шага, возникающие при рассмотрении выборочной дисперсии, мы пишем

(n1)s2=i=1n((Xiμ)(x¯μ))2

=i=1n(Xiμ)22i=1n((Xiμ)(x¯μ))+i=1n(x¯μ)2

и после небольшой манипуляции,

=i=1n(Xiμ)2n(x¯μ)2

Следовательно

n(s2σ2)=nn1i=1n(Xiμ)2nσ2nn1n(x¯μ)2

Манипуляции,

n(s2σ2)=nn1i=1n(Xiμ)2nn1n1σ2nn1n(x¯μ)2

=nnn11ni=1n(Xiμ)2nn1n1σ2nn1n(x¯μ)2

=nn1[n(1ni=1n(Xiμ)2σ2)]+nn1σ2nn1n(x¯μ)2

Член становится асимптотически единичным. Термин является детерминированным и стремится к нулю как .n/(n1)nnn1σ2n

У нас также есть . Первый компонент сходится по распределению к нормали, второй по вероятности сходится к нулю. Тогда по теореме Слуцкого произведение сходится по вероятности к нулю,n(x¯μ)2=[n(x¯μ)](x¯μ)

n(x¯μ)2p0

Мы остались с термином

[n(1ni=1n(Xiμ)2σ2)]

Опираясь на смертоносный пример, предложенный @whuber в комментарии к этому ответу , мы хотим убедиться, что не является константой. Уубер указал, что если является бернуллиевским то эта величина является константой. Таким образом, исключая переменные, для которых это происходит (возможно, другие дихотомические, а не только двоичные ?), В остальном мы имеемХ я ( 1 / 2 ) 0 / 1(Xiμ)2Xi(1/2)0/1

E(Xiμ)2=σ2,Var[(Xiμ)2]=μ4σ4

и поэтому исследуемый термин является обычным предметом классической центральной предельной теоремы, и

n(s2σ2)dN(0,μ4σ4)

Примечание: приведенный выше результат, конечно, справедлив и для нормально распределенных выборок, но в последнем случае мы также имеем конечный выборочный результат распределения хи-квадрат.

Алекос Пападопулос
источник
3
+1 Нет смысла проверять общие дихотомические распределения, потому что все они являются масштабными и локационными версиями Бернулли: достаточно анализа Бернулли. Мои симуляции (до размеров выборки ) подтверждают результат . χ 2 1101000χ12
whuber
@whuber Спасибо за проверку. Вы правы, конечно, в том, что Бенрулли - мать их всех.
Алекос Пападопулос
10

У вас уже есть подробный ответ на ваш вопрос, но позвольте мне предложить другой вопрос. На самом деле, более короткое доказательство возможно на основе того факта, что распределение

S2=1n1i=1n(XiX¯)2

не зависит от , скажем. Асимптотически также не имеет значения, изменим ли мы коэффициент на , что я сделаю для удобства. Затем мы имеем1E(X)=ξ 11n11n

n(S2σ2)=n[1ni=1nXi2X¯2σ2]

И теперь мы предполагаем без ограничения общности, что и мы замечаем, чтоξ=0

nX¯2=1n(nX¯)2

имеет предел вероятности ноль, так как второе слагаемое ограничено по вероятности (согласно CLT и теореме о непрерывном отображении), т.е. оно равно . Асимптотический результат теперь следует из теоремы Слуцкого и CLT, так какOp(1)

n[1nXi2σ2]DN(0,τ2)

где . И это сделает это.τ2=Var{X2}=E(X4)(E(X2))2

JohnK
источник
Это, безусловно, более экономично. Но, пожалуйста, пересмотрите, насколько безобидным является предположение . Например, он исключает случай выборки Бернулли ( ), и, как я упоминаю в конце моего ответа, для такой выборки этот асимптотический результат не выполняется. р = 1 / 2E(X)=0p=1/2
Алекос Пападопулос
@AlecosPapadopoulos Действительно, но данные всегда могут быть центрированы, верно? Я имею в виду и мы можем работать с этими переменными. Что касается дела Бернулли, что-то мешает нам сделать это?
i=1n(Xiμ(X¯μ))2=i=1n(XiX¯)2
JohnK
@AlecosPapadopoulos О да, я вижу проблему.
JohnK
Я написал небольшую статью по этому вопросу, думаю, пришло время загрузить ее в мой блог. Я сообщу вам, если вам интересно это прочитать. Асимптотическое распределение дисперсии выборки в этом случае представляет интерес, и тем более асимптотическое распределение стандартного отклонения выборки. Эти результаты верны для любой дихотомической случайной величины . p=1/2
Алекос Пападопулос
1
Тупой вопрос, но как мы можем предположить, что является вспомогательным, если не являются нормальными? Или всегда является вспомогательным (я полагаю, относительно средней параметризации), но только независимо от среднего значения выборки, когда среднее значение выборки является полной достаточной статистикой (то есть нормально распределенной) по теореме Басу? S2XiS2
Chill2Macht
3

Отличные ответы Алекоса и ДжонК уже результат, , но я хотел бы отметить еще кое-что об асимптотическом распределении выборочной дисперсии.

Обычно можно увидеть асимптотические результаты, представленные с использованием нормального распределения, и это полезно для формулировки теорем. Однако, практически говоря, цель асимптотического распределения для выборочной статистики состоит в том, что она позволяет получить приблизительное распределение, когда велико. Есть много вариантов, которые вы могли бы сделать для своего приближения большой выборки, поскольку многие распределения имеют одинаковую асимптотику. В случае выборочной дисперсии, я считаю, что превосходное аппроксимирующее распределение для больших определяется выражением:nn

Sn2σ2Chi-Sq(df=DFn)DFn,

где и - параметр эксцесса. Это распределение асимптотически эквивалентно нормальному приближению, полученному из теоремы (распределение хи-квадрат сходится к нормальному, когда степени свободы стремятся к бесконечности). Несмотря на эту эквивалентность, эта аппроксимация обладает рядом других свойств, которые вы бы хотели, чтобы ваше аппроксимирующее распределениеDFn2/V(Sn2/σ2)=2n/(κ(n3)/(n1))κ=μ4/σ4

  • В отличие от нормального приближения, полученного непосредственно из теоремы, это распределение имеет правильную поддержку интересующей статистики. Выборочная дисперсия неотрицательна, и это распределение имеет неотрицательную поддержку.

  • В случае, когда базовые значения обычно распределены, это приближение фактически является точным распределением выборки. (В этом случае мы имеем что дает , который является стандартной формой, используемой в большинстве текстов.) Следовательно, он представляет собой результат, который является точным в важном частном случае, и при этом остается разумным приближением в более общие случаи.κ=3DFn=n1


Вывод вышеуказанного результата: Приблизительные результаты распределения для выборочного среднего и дисперсии подробно обсуждаются в O'Neill (2014) , и в этой статье приводятся выводы многих результатов, включая настоящее приближенное распределение.

Этот вывод начинается с ограничивающего результата в вопросе:

n(Sn2σ2)N(0,σ4(κ1)).

Переставляя этот результат, мы получаем приближение:

Sn2σ2N(1,κ1n).

Поскольку распределение хи-квадрат асимптотически нормально, как мы имеем:DF

Chi-Sq(DF)DF1DFN(DF,2DF)=N(1,2DF).

Если (что приводит к приведенной выше формуле), то обеспечивающая асимптотическое распределение хи-квадрат эквивалентно нормальному приближению из предельной теоремы.D F n2 n / ( κ - 1 )DFn2/V(Sn2/σ2)DFn2n/(κ1)

Восстановить Монику
источник
Один эмпирически интересный вопрос заключается в том, какой из этих двух асимптотических результатов лучше работает в случаях конечных выборок при различных базовых распределениях данных.
lzstat
Да, я думаю, что это было бы очень интересное (и публикуемое) исследование симуляции. Поскольку настоящая формула основана на эксцентричной коррекции дисперсии дисперсии выборки, я ожидаю, что настоящий результат будет работать лучше всего, когда у вас есть базовое распределение с параметром эксцесса, который далек от мезокуртика (то есть, когда эксцесс исправление имеет наибольшее значение). Поскольку эксцесс необходимо оценивать по выборке, остается открытым вопрос, когда произойдет существенное улучшение общей эффективности.
Восстановить Монику