В «Анализе данных» Д.С. Сивии происходит вывод распределения Пуассона из биномиального распределения.
Они утверждают, что распределение Пуассона является предельным случаем биномиального распределения при , где - количество испытаний.
Вопрос 1: Как интуитивно понять этот аргумент?
Вопрос 2: Почему предел большого в Равен , Где - количество успехов в испытания? (Этот шаг используется при выводе.)
Ответы:
Я попробую простое интуитивное объяснение. Запишите, что для биномиальной случайной величины мы ожидаем, что n p, а дисперсия n p ( 1 - p ) . Теперь подумайте, что X записывает количество событий в очень большом количестве n испытаний, каждое из которых имеет очень малую вероятность p , так что мы очень близки к 1 - p = 1 (на самом деле ≈ ). Тогда имеем n p = λX∼Bin(n,p) np np(1−p) X n p 1−p=1 ≈ np=λ скажем, и , поэтому среднее значение и дисперсия равны λ . Затем помните, что для распределенной по Пуассону случайной величины мы всегда имеем среднее значение и дисперсию! Это, по крайней мере, аргумент правдоподобия для приближения Пуассона, но не доказательство.np(1−p)≈np1=λ λ
Затем посмотрите на это с другой точки зрения - процесс точки Пуассона https://en.wikipedia.org/wiki/Poisson_point_process на реальной линии. Это распределение случайных точек на линии, которое мы получаем, если случайные точки возникают в соответствии с правилами:
Тогда распределение числа точек в данном интервале (не обязательно короткое) является пуассоновским (с параметром пропорциональным длине). Теперь, если мы разделим этот интервал на очень много одинаково очень коротких подинтервалов ( n ), вероятность двух или более точек в данном подинтервале по существу равна нулю, так что число будет иметь в очень хорошем приближении распределение Бернолли, то есть Bin ( 1 , p ) , поэтому сумма всего этого будет Bin ( n , p ) , поэтому хорошее приближение распределения Пуассона числа точек в этом (длинном) интервале.λ n Bin(1,p) Bin(n,p)
Правка из @Ytsen de Boer (OP): на вопрос № 2 удовлетворительно отвечает @ Łukasz Grad.
источник
Позвольте мне предоставить альтернативную эвристику. Я собираюсь показать, как аппроксимировать процесс Пуассона в виде бинома (и доказать, что аппроксимация лучше для многих испытаний с низкой вероятностью). Поэтому биномиальное распределение должно стремиться к распределению Пуассона.
Допустим, события происходят с постоянной скоростью во времени. Мы хотим знать, сколько событий произошло за день, зная, что ожидаемое количество событий равноλ .
Ну, ожидаемое количество событий в час составляетλ/24 . Давайте представим, что это означает, что вероятность события, произошедшего в данный час, составляет λ/24 . [это не совсем верно, но это приличное приближение, если λ/24≪1 основном, если мы можем предположить, что несколько событий не происходят в один и тот же час]. Затем мы можем аппроксимировать распределение числа событий в виде бинома с M=24 испытаниями, каждое из которых имеет вероятность успеха λ/24 .
Мы улучшаем приближение, переключая наш интервал на минуты. Тогда этоp=λ/1440 с M=1440 испытаний. Если λ около, скажем, 10, то мы можем быть достаточно уверены, что ни в одну минуту не было двух событий.
Конечно, будет лучше, если мы перейдем на секунды. Теперь мы смотрим на событияM=86400 каждое с малой вероятностью λ/86400 .
Независимо от того, насколько велик вашλ , я в конечном итоге могу выбрать достаточно маленький Δt , так что очень вероятно, что никакие два события не произойдут в одном интервале. Тогда биномиальное распределение, соответствующее этому Δt будет превосходно соответствовать истинному распределению Пуассона.
Единственная причина, по которой они не совпадают, заключается в том, что существует ненулевая вероятность того, что два события происходят в одном и том же интервале времени. Но, учитывая, что есть только околоλ событий, и они распределены по некоторому числу бинов, значительно превышающих λ , маловероятно, что любые два из них лежат в одном бине.
Или, другими словами, биномиальное распределение стремится к распределению Пуассона какM→∞ , если вероятность успеха является p=λ/M .
источник
Вопрос 1
Напомним определение биномиального распределения:
Сравните это с определением распределения Пуассона:
Существенная разница между 2 состоит в том, что бином является в испытаниях, Пуассон - в течение периода времени t . Как предел может возникнуть интуитивно?n t
Допустим, вы должны продолжать испытания Бернулли на всю вечность. Более того, вы запускаете в минуту. За минуту ты считаешь каждый успех. Так что на протяжении всей вечности вы запускаете процесс B i n ( p , 30 ) каждую минуту. Более 24 часов, у вас есть B я п ( р , 43200 ) .n=30 Bin(p,30) Bin(p,43200)
Когда вы устаете, вас спрашивают: «Сколько успехов произошло с 18:00 до 19:00?». Ваш ответ может быть , то есть вы предоставляете средний успех в час. Для меня это очень похоже на параметр Пуассона λ .30∗60∗p λ
источник
Вопрос 2)
Таким образом, принимая предел для фиксированнойN
источник
Проблема в том, что ваша характеристика Пуассона как предельного случая биномиального распределения не совсем верна, как указано .
Пуассона является предельным случаем биномиального , когда: Вторая часть важна. Если p остается фиксированным, первое условие подразумевает, что скорость также будет расти без ограничения.
Распределение Пуассона предполагает, что события редки . Под «редким» мы подразумеваем не то, что скорость событий мала - действительно, пуассоновский процесс может иметь очень высокую интенсивность но скорее, что вероятность события, происходящего в любой момент времени [ t , t + d t ) исчезающе мала. Это в отличие от биномиальной модели, где вероятность p события (например, «успех») фиксирована для любого данного испытания.λ [t,t+dt) p
Для иллюстрации предположим, что мы смоделировали серию независимых испытаний Бернулли, каждое из которых имеет вероятность успеха p , и посмотрим, что происходит с распределением числа успехов X при M → ∞ . Для любого N, настолько большого, насколько мы пожелаем, и независимо от того, насколько мало p , ожидаемое количество успехов E [ X ] = M p > N для M > N / p.M p X M→∞ N p E[X]=Mp>N M>N/p , Иными словами, независимо от того, насколько маловероятна вероятность успеха, в конечном итоге вы сможете достичь среднего числа успехов, которое вам будет угодно, если вы проведете достаточно много испытаний. Таким образом, (или, просто говоря , « M велик») не достаточно , чтобы оправдать модель Пуассона для X .M→∞ M X
Нетрудно алгебраически установить в качестве предельного случая Pr [ X = x ] = ( M
источник
Я могу только попытаться ответить частично, и речь идет об интуиции к Вопросу 2, а не о строгом доказательстве.
источник
Я думаю, что это лучший пример, который интуитивно объясняет, как биномиальное распределение сходится к нормальному с большим количеством шаров. Здесь каждый шар имеет одинаковую вероятность падения по обе стороны от колышка в каждом слое, и все шары должны иметь одинаковое количество колышков. Легко видеть, что, поскольку количество шариков очень велико, распределение шариков по разным участкам будет похоже на нормальное распределение.
Мой ответ на ваш вопрос 2 совпадает с ответом Лукаша.
источник