Асимптотическое распределение полинома

10

Я ищу предельное распределение полиномиального распределения по результатам d. IE, распределение следующее

lim_{n \to \infty} n^{- \frac{1}{2}} X_{n}

$\lim_{n\to \infty} n^{-\frac{1}{2}} \mathbf{X_n}$

Где $\mathbf{X_n}$ - случайная величина векторного значения с плотностью $f_n(\mathbf{x})$ для $\mathbf{x}$ такой, что $\sum_i x_i=n$ , $x_i\in \mathbb{Z}, x_i\ge 0$ и 0 для всех остальных $\mathbf{x}$ , где

f_{n} (x) = n! \prod_{i = 1}^{d} \frac{p_{i}^{x_{i}}}{x_{i}!}

$f_{n}(\mathbf{x})=n!\prod_{i=1}^d\frac{p_i^{x_i}}{x_i!}$

Я нашел одну форму в теореме Ларри Вассермана «Вся статистика» 14.6, стр. 237, но для ограничения распределения он дает Normal с сингулярной ковариационной матрицей, поэтому я не уверен, как это нормализовать. Вы можете проецировать случайный вектор в (d-1) -мерное пространство, чтобы сделать ковариационную матрицу полноценной, но какую проекцию использовать?

Обновление 11/5

Рэй Купман имеет хорошее резюме проблемы сингулярного Гаусса. По сути, сингулярная ковариационная матрица представляет собой идеальную корреляцию между переменными, которую невозможно представить с помощью гауссиана. Однако можно получить гауссовское распределение для условной плотности, обусловленное тем, что значение случайного вектора является действительным (компоненты складываются в в случае выше). $n$

Разница для условного гауссова в том, что обратное заменяется псевдообратным, а коэффициент нормализации использует «произведение ненулевых собственных значений» вместо «произведение всех собственных значений». Ян Фрис дает ссылку с некоторыми подробностями.

Есть также способ выразить коэффициент нормализации условного гауссова без ссылки на собственные значения, вот вывод

asymptotics multinomial Ярослав Булатов
источник

Что именно вы подразумеваете под ограничением распространения в этом случае?

Робби МакКиллиам

то есть тот, который вы получаете из центральной предельной теоремы, позвольте мне обновить детали

Ярослав Булатов

1

То, что вы имеете в виду, это асимптотическое распределение оценки максимального правдоподобия полинома. Кроме того, первое уравнение должно быть n ^ {- 1}, а не n ^ {- 1/2}.

Саймон Бирн

1

В обозначениях выше, для d = 2, X_n - это количество голов после n бросков монет, так что X_n / sqrt (n) подходит к Normal, а не X_n / n, нет?

Ярослав Булатов

1

Да, ты прав. Я просто запутался.

Саймон Бирн

6

Ковариация все еще неотрицательно определена (как и действительное многомерное нормальное распределение ), но не положительно определена: это означает, что (по крайней мере) один элемент случайного вектора является линейной комбинацией других.

В результате любой вывод из этого распределения всегда будет лежать в подпространстве . Как следствие, это означает, что невозможно определить функцию плотности (поскольку распределение сконцентрировано на подпространстве: подумайте о том, как одномерная норма сконцентрируется на среднем значении, если дисперсия равна нулю). $R^d$

Однако, как предполагает Робби МакКиллиам, в этом случае вы можете отбросить последний элемент случайного вектора. Ковариационная матрица этого уменьшенного вектора будет исходной матрицей с опущенным последним столбцом и строкой, которая теперь будет положительно определенной и будет иметь плотность (этот прием будет работать в других случаях, но вы должны быть осторожны, какой элемент вы отбрасываете, и вам может понадобиться отбросить более одного).

Саймон Бирн
источник

Что является немного неудовлетворительным, так это свобода выбора, чтобы получить действительную плотность, мне нужно запросить распределение A x, где A - некоторая матрица ранга d-1 (d) x (d-1). Будет ли погрешность CLT-аппроксимации для конечного n эквивалентной для всех вариантов выбора A? Это мне не понятно

Ярослав Булатов

1

Да, ошибка всегда должна быть одинаковой. Имейте в виду, что последний элемент вектора функционально зависит от других (d-1) элементов (как в конечной выборке, так и в асимптотических случаях).

Саймон Бирн

Дело не в том, что «последний» элемент является зависимым, проблема Ярослава в том, что ему не нравится идея выбирать, какой элемент отбрасывать. Я согласен с ответом, который вы дали, но я также думаю, что здесь требуется больше внимания и заботы.

Робби МакКиллиам

@ Ярослав: Возможно, было бы хорошо иметь представление о том, какое приложение вы здесь имеете в виду, потому что на данном этапе потенциально много ответов на ваш вопрос.

Робби МакКиллиам

1

Робби - приложение, которое я имел в виду, находится здесь mathoverflow.net/questions/37582/… По существу, интегралы гауссиана, предложенные CLT, дают чрезвычайно хорошее приближение к суммам биномиальных коэффициентов (для малых n, даже лучше, чем непосредственное интегрирование гамма-представления!), поэтому я проверял, могу ли я сделать что-то похожее, чтобы получить приблизительные суммы многочленных коэффициентов, которые мне нужны, чтобы получить не асимптотические оценки ошибок для различных сборщиков (например, с максимальной вероятностью)

Ярослав Булатов

2

Здесь нет врожденной проблемы с единственной ковариацией. Ваше асимптотическое распределение является сингулярной нормалью. См. Http://fedc.wiwi.hu-berlin.de/xplore/tutorials/mvahtmlnode34.html, в котором приведена плотность единственного нормаля.

Ян Фиске
источник

Технически проблема состоит в том, что сингулярная ковариационная матрица означает, что некоторое подмножество переменных идеально коррелируется, поэтому плотность вероятности должна быть точно равна 0 в некоторых областях, но это невозможно с гауссовским. Одно из решений состоит в том, чтобы вместо этого взглянуть на условную плотность, обусловленную тем фактом, что случайная величина находится в допустимой области. Это похоже на то, что они делают в ссылке. Никогда не слышал термин «G-обратный», я предполагаю, что это псевдообратный Пенроуза-Мура?

Ярослав Булатов

Хотя верно, что обычный d-мерный гауссиан имеет поддержку на всех

, единственный гауссиан не имеет. G-инверсия обобщенно инверсна, и да, я считаю, что здесь работает определение Пенроуза-Мура. Я думаю, что есть CLT для сингулярных ковариаций, заявляя, как и ожидалось, сходимость в распределении к единственному CLT, хотя сейчас я не могу найти ссылку.

ℜ^{d}

$\Re^d$

Ян Фиске

1

Мне кажется, что ковариационная матрица Вассермана является сингулярной, чтобы увидеть, умножить ее на вектор из , т.е. длины . $d$ $[1,1,1,\dots,1]^\prime$ $d$

Википедия в любом случае дает одну и ту же ковариационную матрицу. Если мы ограничимся только биномиальным распределением, то стандартная центральная предельная теорема говорит нам, что биномиальное распределение (после соответствующего масштабирования) сходится к нормальному, когда становится большим (см. Википедию снова ). Применяя аналогичные идеи, вы должны показать, что надлежащим образом масштабированный многочлен будет сходиться по распределению к многомерной нормали, т.е. каждое предельное распределение является просто биномиальным и сходится к нормальному распределению, и дисперсия между ними известна. $n$

Итак, я очень уверен, что вы обнаружите, что распределение

\frac{X_{n} - n p}{\sqrt{n}}

$\frac{X_n - np}{\sqrt{n}}$

\frac{C}{n}

$\frac{C}{n}$

C

$C$

p

$p$

[p_{1}, \dots, p_{d}]

$[p_1,\dots,p_d]$

Робби МакКиллиам
источник

1

но ковариационная матрица рассматриваемого полинома сингулярна, вы показали это сами ...

Ярослав Булатов

d

$d$

C

$C$

[p_{1}, p_{2}, \dots, p_{d - 1}]

$[p_1,p_2,\dots,p_{d-1}]$

Одно из предложений, которое я нашел, состоит в том, чтобы по-прежнему использовать гауссиан, но вместо псевдообращения использовать вместо псевдообратного и «произведение ненулевых собственных значений» вместо определителя. Для d = 2 это, кажется, дает правильную форму плотности, но коэффициент нормализации выключен

Ярослав Булатов

1

$|S_{-i}|=|S_{-j}|$ $i,j$ $S_{-i}$ $i$

jvdillon
источник

Эти матрицы не равны, вот ковариационная матрица yaroslavvb.com/upload/multinomial-covariance-matrix.png

Ярослав Булатов

Да, это действительно ковариационная матрица. Моя точка зрения - удаление любого i-го столбца и строки в одном и том же члене нормализации для гауссиана. Возможно, я упускаю что-то очевидное?

Jvdillon

n

$n$

p_{i} = 1 - \sum_{j \neq i} p_{j}

$p_i=1-\sum_{j\ne i}p_j$

p_{i}

$p_i$

S

$S$

Кстати, мне нравится ваше применение этой идеи - отсюда мой интерес к ответу.

Jvdillon

Асимптотическое распределение полинома

Ответы: