Как предсказать, когда произойдет следующее событие, основываясь на времени предыдущих событий?

19

Я учусь в старших классах и работаю над проектом по программированию, но у меня нет большого опыта в области статистики и моделирования данных, кроме курса по статистике в старших классах, поэтому я немного растерялся.

По сути, у меня есть достаточно большой список (предположим, он достаточно большой, чтобы соответствовать предположениям для любых статистических тестов или показателей), когда кто-то решил напечатать документ. Основываясь на этом списке, я хотел бы построить статистическую модель, которая будет прогнозировать наиболее вероятное время для следующего задания на печать с учетом всех предыдущих событий.

Я уже читал это , но ответы не совсем помогают с тем, что я имею в виду для моего проекта. Я провел дополнительное исследование и обнаружил, что Скрытая Марковская Модель , вероятно, позволила бы мне делать это точно, но я не могу найти ссылку на то, как сгенерировать Скрытую Марковскую Модель, используя только список раз. Я также обнаружил, что использование фильтра Калмана в списке может быть полезным, но в основном я хотел бы получить дополнительную информацию об этом от того, кто на самом деле использовал их и знает их ограничения и требования, прежде чем просто попробовать что-то и надеяться, что это сработает.

Огромное спасибо!

ankushg
источник
1
+1 Это хорошо сформулированный, хорошо продуманный вопрос, Анкуш. Я надеюсь, что вы получите отличные ответы. Добро пожаловать на наш сайт!
whuber
Спасибо за исправление названия - я перемещал слова, чтобы попытаться сделать вещи более связными, и я полагаю, что в конечном итоге это вообще не имеет смысла! Надеюсь, кто-то с соответствующими знаниями может помочь.
Ankushg

Ответы:

10

Скрытые марковские модели были бы применимы, если бы данные представляли собой случайные выбросы от какой-либо ненаблюдаемой марковской модели; Я не исключаю этого, но это не выглядит очень естественной моделью.

Я бы подумал о точечных процессах , которые хорошо соответствуют вашим конкретным данным. Существует большая работа по прогнозированию землетрясений (хотя я не знаю много об этом) и даже преступности .

Если есть много разных людей, печатающих, и вы просто видите время, но не отдельные идентичности, процесс Пуассона может работать хорошо (суперпозиция нескольких независимых точечных процессов приблизительно равна Пуассону), хотя он должен быть неоднородным ( вероятность того, что точка будет меняться с течением времени): люди реже будут печатать в 3 часа ночи, чем в 3 часа дня.

Для неоднородной модели процесса Пуассона ключевым моментом будет получение хорошей оценки вероятности выполнения задания на печать в определенное время в определенный день.

Однако, если эти времена печати предназначены для учащихся в классе, это может быть довольно сложно, поскольку они вряд ли будут независимыми, и поэтому процесс Пуассона не будет работать хорошо.

Вот ссылка на статью о преступлении.

Карл
источник
Спасибо за это. Знаете ли вы какой-либо способ создать модель для точечного процесса? Кажется, это наиболее актуально, но я не очень разбираюсь в статистике, поэтому все это сбивает с толку (Пуассона против Детерминанта против Кокса?), Когда я читаю Википедию ...: - \
ankushg
@Unk - я бы начал с составления графиков данных. Как долго этот список времени печати?
Карл
Это примерно годовой объем данных. Я сделаю несколько сюжетов и дам вам знать, как это происходит.
ankushg
1

Основываясь на прогнозировании вероятного времени, можно использовать статистику многомерного байесовского сканирования (MBSS). Этот MBSS имеет преимущество в улучшении своевременности и точности обнаружения событий.

Esan
источник
Добро пожаловать на сайт, @Esan. Можете ли вы рассказать больше о MBSS, как она работает и как это поможет?
gung - Восстановить Монику