Если ,

9

Предположим следующее:
Пусть Zi=min{ki,Xi},i=1,...,n . Также XiU[ai,bi],ai,bi>0 . Кроме того, kязнак равносaя+(1-с)бя,0<с<1 т.е. Кя является выпуклой комбинацией границ соответствующих опор. с является общим для всех я .

Я думаю, что у меня есть правильное распределение Zя : это смешанное распределение .
Он имеет непрерывную часть,

Икся[aя,Кя),Zязнак равноИксяPr(ZяZя)знак равноZя-aябя-aя
а затем разрыв и дискретную часть, где вероятностные массовые концентрации:
Pr(Zязнак равноКя)знак равноPr(Икся>Кя)знак равно1-Pr(ИксяКя)
знак равно1-Кя-aябя-aязнак равно1-(1-с)(бя-aя)бя-aязнак равнос

Таким образом, во всех

FZя(Zя)знак равно{0Zя<aяZя-aябя-aяaяZя<Кя1КяZя

в то время как для смешанной «дискретной / непрерывной» функции масса / плотность она равна 0 вне интервала [aя,Кя] , она имеет непрерывную часть, которая является плотностью равномерной U(aя,бя) , 1бя-aя но для aяZя<Кя , и он концентрирует массу положительной вероятности с>0 при Zязнак равноКя .

В целом это сводится к единству над реалами.

Я хотел бы иметь возможность получить или сказать что-то о распределении и / или моментах случайной величины SNΣязнак равно1NZя , как N .

Скажем, если независимы, это выглядит как как . Могу ли я «игнорировать» эту часть, даже в качестве приблизительного? Тогда у меня останется случайная величина, которая находится в интервале , похожий на сумму цензурированных униформ, на пути к тому, чтобы стать «нецензурированным», и поэтому, может быть, какая-то центральная предельная теорема ... но я, вероятно, расходюсь, а не сходлюсь здесь, так что, есть предложения? Pr ( S n = n i k i ) = c nИксяn [ n i = 1 a i ,Pr(SNзнак равноΣяNКя)знак равносN0N[Σязнак равно1Naя,Σязнак равно1NКя)

PS: Этот вопрос актуален, получая распределение суммы цензурированных переменных , но ответ @Glen_b не тот, который мне нужен - мне нужно работать над этим аналитически, даже используя приближения. Это исследование, поэтому, пожалуйста, относитесь к нему как к домашней работе - общие предложения или ссылки на литературу достаточно хороши.

Алекос Пападопулос
источник
Если вам это нужно, запишите распределение как с подходящим , в котором - борелевское множество. μZiμZi(B)=P(ZiB)=Bg(t)dt+cIB(ki)BgВ
Дзен
@ Zen Я уже писал в вопросе, что распределение является прерывистым. Также RHS для делает очевидным, что это означает плотность в , но для вероятности для -и я предпочитаю компактные обозначения. f [ a i , k i ) k iее[aя,Кя)Кя
Алекос Пападопулос
Насколько я знаю, это обозначение с было pdf и pmf не существует; и у нас есть соответствующий математический язык для точного описания смешанных распределений. Я сомневаюсь, что эта запись будет принята, когда вы опубликуете свое исследование. Просто мое мнение, конечно. Вы всегда должны делать это так, как вам нравится. е
Дзен
@Zen Publishing далеко впереди - и действительно, рецензенты нахмурились, увидев неустановленную запись. Это просто сокращение, когда нужно описать пошаговое распределение во многих строках. Нет никакого «аргумента в пользу» этого и против установленной записи, как, например, тот, который вы использовали в предыдущем комментарии.
Алекос Пападопулос

Ответы:

5

Я бы последовал совету Генри и проверил бы Ляпунова с . Тот факт, что распределения являются смешанными, не должен быть проблемой, если и ведут себя правильно. Моделирование частного случая, в котором , , для каждого показывает, что нормальность в порядке.δзнак равно1aябяaязнак равно0бязнак равно1Кязнак равно2/3я1

xbar <- replicate(10^4, mean(pmin(runif(10^4), 2/3)))
hist((xbar - mean(xbar)) / sd(xbar), breaks = "FD", freq = FALSE)
curve(dnorm, col = "blue", lwd = 2, add = TRUE)

CLT

Zen
источник
Действительно довольно нормально. Хорошо знать. Обычные условия для CLT никогда не были проблемой здесь, мой вопрос был, были ли другие, возможно тонкие проблемы, которые искажали асимптотический результат и требовали модифицированного CLT. Ваше моделирование показывает, что на самом деле дискретный разрыв становится пренебрежимо малым по вероятности, когда в сумму входит больше переменных.
Алекос Пападопулос
Ничего конкретного, но они не создают никаких проблем. Думайте о них так же, как вели себя конечные числа, независимые от индекса . Они могут увеличивать или уменьшать , как не расту (не правила конкретного), а не какая - либо один из них несоизмеримо больше , чем другие ... они представляют собой различие в размерах , тем не менее «сравнимых» сущностей. Таким образом, условие Линдеберга, безусловно, выполняетсяяяя
Алекос Пападопулос
Ницца. Удачи в следующих шагах. Похоже, интересная проблема.
Дзен
3

подсказки:

Предполагая, что фиксировано и независимы, вы можете вычислить среднее значение и дисперсию для каждого : например, и вы знаете, что . X i μ i σ 2 i Z i μ i = E [ Z i ] = c a i + k icXяμяσя2ZяKI=ся+(1-гр)бIμязнак равноЕ[Zя]знак равносaя+Кя2+(1-с)КяКязнак равносaя+(1-с)бя

Затем, если и не растут слишком быстро, вы можете использовать условия Ляпунова или Линдеберга, чтобы применить центральную предельную теорему с выводом, что сходится по распределению к стандартной нормали или в смысле рукой приблизительно нормально распределяется со средним значением и дисперсия .б я 1aябяn1Zin1μin1σ2i1Σ1Nσя2(Σ1NZя-Σ1Nμя)Σ1NZяΣ1NμяΣ1Nσя2

Генри
источник
Спасибо. С и проблем нет , они не растут с индексом, они просто колеблются вокруг. Таким образом, вы говорите по существу, что CLT может охватывать также случайные переменные со смешанным распределением? б яaibя
Алекос Пападопулос
Например, если бы и были фиксированными, то у вас были бы независимые одинаково распределенные случайные величины с конечной дисперсией, поэтому применима центральная предельная теорема. Является ли это распределением смеси или нет, это не влияет на этот результат. Я хочу сказать, что вы можете распространить это на случаи, когда случайные переменные независимы, но не распределены одинаково, при условии, что средние значения и различия остаются разумными. б яaябя
Генри
2

Мое главное беспокойство в этом вопросе заключалось в том, можно ли применять CLT «как обычно» в случае, который я рассматриваю. Пользователь @Henry утверждал, что можно, пользователь @Zen показал это с помощью симуляции. Ободренный, сейчас я докажу это аналитически.

Сначала я хочу убедиться, что эта переменная со смешанным распределением имеет «обычную» функцию генерации моментов. Обозначим ожидаемое значение , его стандартное отклонение и центрированную и масштабированную версию через . Применяя изменение-о-переменной формулы мы находим , что непрерывная часть Производящая момент функция должна быть Z i σ i Z i ˜ Z i = Z i - μ iμяZяσяZя е ~ Z ( ~ г я)=σяеZ(гя)=σяZ~язнак равноZя-μяσя
~ Z я ~ М я(т)=Е(е ~ г ят)=- е ~ г ятдР ~ Z ( ~ г я)= ~ K я ~ я σie ˜ z i t

еZ~(Z~я)знак равноσяеZ(Zя)знак равноσябя-aя
Z~я
M~я(T)знак равноЕ(еZ~яT)знак равно-еZ~яTdFZ~(Z~я)знак равноa~яК~яσяеZ~яTбя-aяdZя+сеК~яT

M~я(T)знак равноσябя-aяеК~яT-еa~яTT+сеК~яT
с
К~язнак равноКя-μяσя,a~язнак равноaя-μяσя

Используя простые числа для обозначения производных, если мы правильно указали функцию, производящую момент, то мы должны получить так как это центрированная и масштабированная случайная величина. И действительно, вычисляя производные, применяя правило Лопиталя много раз (поскольку значение MGF в нуле должно быть рассчитано через пределы) и выполняя алгебраические манипуляции, я проверил первые два равенства. Третье равенство оказалось слишком утомительным, но я верю, что оно справедливо.

M~я(0)знак равно1,M~я'(0)знак равноЕ(Z~)знак равно0M~я"(0)знак равноЕ(Z~я2)знак равноVar(Z~я)знак равно1

Таким образом, у нас есть правильный MGF. Если мы возьмем его разложение Тейлора 2-го порядка около нуля, мы имеем

M~(T)знак равноM~(0)+M~'(0)T+12M~"(0)T2+о(T2)

M~(T)знак равно1+12T2+о(T2)

Это означает, что характеристическая функция (здесь обозначает мнимую единицу) .я

φ~(T)знак равно1+12(яT)2+о(T2)знак равно1-12T2+о(T2)

По свойствам характеристической функции имеем, что характеристическая функция равнаZ~/N

φ~Z~/N(T)знак равноφ~Z~(T/N)знак равно1-T22N+о(T2/N)

и поскольку у нас есть независимые случайные величины, характеристическая функция равна1NΣяNZ~я

φ~1NΣяNZ~я(T)знак равноΠязнак равно1Nφ~Z~(T/N)знак равноΠязнак равно1N(1-T22N+о(T2/N))

затем

ИтNφ~1NΣяNZ~я(T)знак равноИтN(1-T22N)Nзнак равное-T2/2

по какому числу представленае . Так получилось, что последний член является характеристической функцией стандартного нормального распределения, и по теореме Леви о непрерывности имеем

1NΣяNZ~яdN(0,1)

который является CLT. Обратите внимание, что тот факт, что переменные не являются одинаково распределенными, «исчез» из поля зрения, как только мы рассмотрели их центрированные и масштабированные версии и рассмотрели разложение Тейлора 2-го порядка их MGF / CHF: на этом уровне приближения эти функции идентичны, и все различия сжаты в остальных терминах, которые исчезают асимптотически. Z

Тот факт, что характерное поведение на индивидуальном уровне от всех отдельных элементов, тем не менее, исчезает, когда мы рассматриваем среднее поведение, я считаю, что это очень хорошо демонстрируется использованием мерзкого существа, подобного случайной переменной, имеющей смешанное распределение.

Алекос Пападопулос
источник
Действительно круто, Алекос. Мне кажется, что аргумент должен зависеть от более конкретных условий на и . Например: доказательство разрушается, если быстро? (Я знаю, что в вашем приложении этого не происходит.) Как вы думаете? aябя(бя-aя)0
Zen
@Zen Проблема, касающаяся различий независимых, но не идентично распределенных rv, очень тонкая, я не думаю, что до сих пор ясно понимаю ее. Известные условия Ляпунова или Линдеберга достаточны только для выполнения CLT. Есть случаи, когда CLT выполняется, хотя эти условия не выполняются. Поэтому я думаю, что если мы не ограничим дисперсию, то единого ответа не будет, и проблема станет полностью конкретной. Даже книга Биллингсли не ясна по этому вопросу. Вопрос в том, как будет выглядеть остаток, и что мы можем сказать об этом.
Алекос Пападопулос