Какова сумма квадратов т переменных?

20

Пусть из t-распределения Стьюдента с степенями свободы для среднего размера (скажем, менее 100). Определить Распространяется ли почти как хи-квадрат с k степенями свободы? Есть ли что-то вроде центральной предельной теоремы для суммы квадратов случайных величин?tinn

T=1ikti2
Tk
shabbychef
источник
@suncoolsu: там написано «почти» ...
shabbychef
мои извенения. не видел этого.
Suncoolsu

Ответы:

14

Отвечая на первый вопрос.

Мы могли бы начать с того факта, что mpiktas отметил, что . А затем попробуйте сначала сделать более простой шаг - найти распределение суммы двух случайных величин, распределенных по F ( 1 , n ) . Это можно сделать либо путем вычисления свертки двух случайных величин, либо путем вычисления произведения их характеристических функций.t2F(1,n)F(1,n)

Статья на PCB Филлипс показывает , что мое первое предположение о «[сливающемся] гипергеометрических функциях , связанных» было действительно так. Это означает, что решение будет не тривиальным, а грубая сила - сложным, но необходимым условием для ответа на ваш вопрос. Так как фиксировано и вы суммируете t-распределения, мы не можем точно сказать, каким будет конечный результат. Если только у кого-то нет хороших навыков игры с продуктами слитых гипергеометрических функций.n

Дмитрий Челов
источник
2
+1 за ссылку, не знал, что характеристическая функция F распределения была настолько сложной.
mpiktas
14

Это даже не близкое приближение. Для малых ожидание T равно k nnT тогда как ожиданиеχ2(k)равноk. Когдаkневелико (скажем, менее 10), гистограммыlog(T)иlog(χ2(k))даже не имеют одинаковую форму, что указывает на то, что сдвиг и изменение масштабаTвсе равно не сработает.knn2χ2(k)kklog(T)log(χ2(k))T

Наглядно, для малых степеней свободы Стьюдента тяжела хвостатых. Квадрат подчеркивает эту тяжесть. Следовательно, суммы будут более искажены - обычно гораздо больше - чем суммы квадратов нормалей ( распределение χ 2 ). Расчеты и моделирование подтверждают это.tχ2


Иллюстрация (по запросу)

alt text

Каждая гистограмма изображает независимое моделирование 100 000 испытаний с указанными степенями свободы ( ) и слагаемыми ( k ), стандартизированными, как описано в @mpiktas. Значение русского = 9999 на нижней строке аппроксимирует χ 2 случая. Таким образом, вы можете сравнить T с χ 2 , просматривая каждый столбец.nkn=9999χ2Tχ2

Обратите внимание, что стандартизация невозможна при потому что соответствующие моменты даже не существуют. Отсутствие стабильности формы (при сканировании слева направо по любому ряду или сверху вниз по любому столбцу) еще более заметно при n 4 .n<5n4

Whuber
источник
Я боялся этого, но я думал, что суммирование принесет немного хвостов.
Шаббычеф
Я также подумал о проведении своего рода экспериментов Монте-Карло, пытаясь понять, для каких и k приближение может быть достаточно близко к χ 2 ( k ) , возможно, k ( n ), которое нам здесь нужно. Но для малых k и особенно n это будет очень тяжелый хвост. Может быть, вы могли бы добавить сюда эти две гистограммы, просто для ленивых людей, как я? nkχ2(k)k(n)kn
Дмитрий Челов
@Dmitrij Моделирование выполняется быстро (рисование гистограмм занимает больше времени), поэтому я добавил 12 из них.
whuber
+1 за рисунок. Иллюстрации всегда приятно видеть.
Дмитрий Челов
7

Я отвечу на второй вопрос. Центральная предельная теорема для любой последовательности iid, квадрат или не квадрат. Так что в вашем случае, если достаточно велико, мы имеемk

TkE(t1)2kVar(t12)N(0,1)

где и V a r ( t 2 1 ) - соответственно среднее значение и дисперсия квадрата распределения Стьюдента t с n степенями свободы. Обратите внимание, что t 2 1 распространяется как F-распределение с 1 и n степенями свободы. Таким образом, мы можем получить формулы для среднего и дисперсии со страницы Википедии . Окончательный результат тогда:Et12Var(t12)nt121n

Tknn2k2n2(n1)(n2)2(n4)N(0,1)

mpiktas
источник
1
T ^ 2 Хотеллинга: (f - d + 1) / fd T ^ 2 ∼ F (d, f + 1 - d)
DWin
1
@DWin, не уверен, что Хотеллинга действительно применим здесь. По крайней мере из формул со страницы википедии не сразу понятно, что T в вопросе OP можно представить как T 2 . Можете ли вы уточнить это подробнее? T2TT2
mpiktas
будет искать свертку , боясь каких-то гипергеометрических вещей, но где-то должна быть известна. F(1,N)+F(1,N)
Дмитрий Челов
Я считаю, что это сводится к вашей ситуации, когда матрица дисперсии диагональна. Недиагональные элементы из выборки должны быть близки к нулю, если выборки были из Normal, но могут быть не совсем равны нулю, если из t. Тем не менее, вы попросили что-то приблизительное, поэтому я думаю, что ответ, вероятно, F при этом условии.
DWin
F(1,N)F