Я учусь в старших классах и работаю над проектом по программированию, но у меня нет большого опыта в области статистики и моделирования данных, кроме курса по статистике в старших классах, поэтому я немного растерялся.
По сути, у меня есть достаточно большой список (предположим, он достаточно большой, чтобы соответствовать предположениям для любых статистических тестов или показателей), когда кто-то решил напечатать документ. Основываясь на этом списке, я хотел бы построить статистическую модель, которая будет прогнозировать наиболее вероятное время для следующего задания на печать с учетом всех предыдущих событий.
Я уже читал это , но ответы не совсем помогают с тем, что я имею в виду для моего проекта. Я провел дополнительное исследование и обнаружил, что Скрытая Марковская Модель , вероятно, позволила бы мне делать это точно, но я не могу найти ссылку на то, как сгенерировать Скрытую Марковскую Модель, используя только список раз. Я также обнаружил, что использование фильтра Калмана в списке может быть полезным, но в основном я хотел бы получить дополнительную информацию об этом от того, кто на самом деле использовал их и знает их ограничения и требования, прежде чем просто попробовать что-то и надеяться, что это сработает.
Огромное спасибо!
Ответы:
Скрытые марковские модели были бы применимы, если бы данные представляли собой случайные выбросы от какой-либо ненаблюдаемой марковской модели; Я не исключаю этого, но это не выглядит очень естественной моделью.
Я бы подумал о точечных процессах , которые хорошо соответствуют вашим конкретным данным. Существует большая работа по прогнозированию землетрясений (хотя я не знаю много об этом) и даже преступности .
Если есть много разных людей, печатающих, и вы просто видите время, но не отдельные идентичности, процесс Пуассона может работать хорошо (суперпозиция нескольких независимых точечных процессов приблизительно равна Пуассону), хотя он должен быть неоднородным ( вероятность того, что точка будет меняться с течением времени): люди реже будут печатать в 3 часа ночи, чем в 3 часа дня.
Для неоднородной модели процесса Пуассона ключевым моментом будет получение хорошей оценки вероятности выполнения задания на печать в определенное время в определенный день.
Однако, если эти времена печати предназначены для учащихся в классе, это может быть довольно сложно, поскольку они вряд ли будут независимыми, и поэтому процесс Пуассона не будет работать хорошо.
Вот ссылка на статью о преступлении.
источник
Основываясь на прогнозировании вероятного времени, можно использовать статистику многомерного байесовского сканирования (MBSS). Этот MBSS имеет преимущество в улучшении своевременности и точности обнаружения событий.
источник