Мы имеем случайный процесс , который может или может-не-происходить несколько раз в течение заданного периода времени T . У нас есть поток данных из уже существующей модели этого процесса, который обеспечивает вероятность ряда событий, происходящих в период 0≤t<T . Эта существующая модель устарела, и нам нужно выполнить живые проверки данных фида для ошибок оценки. Старая модель, производящая поток данных (который обеспечивает вероятность n событий, происходящих за оставшееся время t ), приблизительно распределена по Пуассону.
Таким образом, чтобы проверить наличие аномалий / ошибок, мы допустим, чтобы t было оставшимся временем, а Xt - общим числом событий, произошедших за оставшееся время t . Старая модель подразумевает оценки P(Xt≤c) . Таким образом, по нашему предположению ИксT∼ Пуассон( λT) имеем:
P ( XT≤ в ) = е- λΣк = 0сλКTк !,
Чтобы вывести нашу частоту событий
λT из выходных данных старой модели (наблюдения
YT ), мы используем подход пространства состояний и моделируем отношение состояний следующим образом:
YT= λT+ εT( εT∼ N( 0 , HT) ),
Мы фильтруем наблюдения из старой модели, используя модель пространства состояний [затухание с постоянной скоростью] для эволюции
λT чтобы получить отфильтрованное состояние
Е( λT| YT) и
пометить аномалию / ошибку в расчетной частоте события из данные канала, если
Е( λT| YT) < уT .
Этот подход прекрасно работает при обнаружении ошибок в подсчитанных событиях за полный период времени T , но не так хорошо, если мы хотим сделать то же самое для другого периода 0 ≤ t < σ где σ< 23T . Чтобы обойти это, мы решили, что теперь хотим переключиться на использование отрицательного биномиального распределения, так что теперь мы предполагаем ИксT∼ NB ( r , p ) и имеем:
P ( XT≤ в ) = ррΣк = 0с( 1 - р )К( k+r-1г - 1) ,
где параметр
λ теперь заменен на
р и
п, Это должно быть легко реализовать, но у меня возникли некоторые трудности с интерпретацией, и поэтому у меня есть несколько вопросов, с которыми я бы хотел вам помочь:
1. Можем ли мы просто установить р = λ в отрицательном биномиальном распределении? Если нет, то почему?
2. Предполагая, что мы можем установить p = f( λ ) где е - некоторая функция, как мы можем правильно установить р (нужно ли нам соответствовать р используя прошлые наборы данных)?
3. Зависит ли р от числа событий, которые мы ожидаем произойти во время данного процесса?
Дополнение к извлечению оценок для р (и п ):
Мне известно, что если бы у нас на самом деле была эта проблема, и у нас было число событий для каждого процесса, мы могли бы принять оценку максимального правдоподобия для и . Конечно, максимальная оценка правдоподобия существует только для выборок, для которых выборочная дисперсия больше среднего значения выборки, но если бы это было так, мы могли бы установить функцию вероятности для независимых идентично распределенных наблюдений as:
из которого мы можем записать логарифмическую функцию правдоподобия как:
р Н к 1 , к 2 , ... , K N L ( г , р ) = N П я = 1 P ( K я ; г , р ) , л ( г , р ) = Н Е я = 1 LN ( Г ( k i + r ) ) - N ∑ iрпNК1, к2, … , КN
L ( r , p ) = ∏я = 1NP ( kя; г , р ) ,
rp ∂ r l ( r , p )l ( r , p ) = ∑я = 1Nпер( Γ ( kя+ р ) ) - ∑я = 1Nпер( кя! ) - Nпер( Γ ( r ) ) + ∑я = 1NКяпер( р ) + Nр лн( 1 - р ) .
Чтобы найти максимум, мы берем частные производные по и и устанавливаем их равными нулю:
Установка и настройка находим:
рп∂гл(г,р)=∂рл(г,р)=0р= N Σ я = 1 K I∂рl ( r , p )∂пl ( r , p )= ∑я = 1Nψ ( кя+ р ) - Nψ ( r ) + Nпер( 1 - р ) ,= ∑я = 1NКя1п- Nг 11 - р,
∂рl ( r , p ) = ∂пl ( r , p ) = 0∂гл(г,р)=НЕя=1ψ(KI+р)-Ni |(р)+NLN(гр = ∑я = 1NКя( Nr + ∑Nя = 1Кя),rp∂rl(r,p)=∑i=1Nψ(ki+r)−Nψ(r)+Nln(rr+∑Ni=1kiN)=0.
Это уравнение не может быть решено для r в замкнутой форме с использованием Ньютона или даже EM. Однако в этой ситуации это не так. Хотя мы
могли бы использовать прошлые данные для получения статических и это на самом деле бесполезно для нашего процесса, нам нужно адаптировать эти параметры во времени, как мы это делали с помощью Пуассона.
rp
Ответы:
Отрицательное биномиальное распределение очень похоже на модель биномиальной вероятности. это применимо, когда следующие предположения (условия) остаются в силе 1) Любой эксперимент проводится при тех же условиях, пока не будет достигнуто фиксированное количество успехов, скажем, C 2) Результат каждого эксперимента можно классифицировать в одну из двух категорий , успех или неудача 3) Вероятность P успеха одинакова для каждого эксперимента. Каждый эксперимент не зависит от всех остальных. Первое условие является единственным ключевым дифференцирующим фактором между биномиальным и отрицательным биномиальным
источник
Распределение Пуассона может быть разумным приближением бинома при определенных условиях, таких как 1) Вероятность успеха для каждого испытания очень мала. P -> 0 2) np = m (скажем) отлично. Правило, наиболее часто используемое статистиками, состоит в том, что пуассон является хорошим приближением бинома, когда n равно или больше 20, а p равно или меньше 5 %
источник