Я часто строю модель (классификацию или регрессию), где у меня есть некоторые предикторные переменные, которые являются последовательностями, и я пытался найти технические рекомендации для их обобщения наилучшим образом, чтобы включить их в качестве предикторов в модель.
В качестве конкретного примера, скажем, строится модель, позволяющая предсказать, покинет ли клиент компанию в ближайшие 90 дней (в любое время между t и t + 90; таким образом, это бинарный результат). Одним из доступных предикторов является уровень финансового баланса клиентов за периоды от t_0 до t-1. Может быть, это представляет ежемесячные наблюдения за предыдущие 12 месяцев (т.е. 12 измерений).
Я ищу способы построения функций из этой серии. Я использую описания каждой серии клиентов, такие как среднее, высокое, низкое, стандартное отклонение, соответствую регрессии OLS, чтобы получить тренд. Есть ли у них другие методы расчета характеристик? Другие меры изменения или волатильности?
ДОБАВЛЯТЬ:
Как упомянуто в ответе ниже, я также рассмотрел (но забыл добавить здесь) использование динамической деформации времени (DTW), а затем иерархическую кластеризацию на полученной матрице расстояний - создание некоторого количества кластеров и затем использование принадлежности к кластеру в качестве функции. Оценка результатов тестирования, вероятно, должна будет следовать процессу, в котором DTW был выполнен для новых случаев и центроидов кластера - сопоставление нового ряда данных с их ближайшими центроидами ...
Извлечение функций - это всегда сложная и менее обсуждаемая тема в литературе, поскольку она широко зависит от приложения.
Некоторые идеи, которые вы можете попробовать:
источник
На первый взгляд, вам нужно извлечь элементы из вашего временного ряда (x - 12) - x. Одним из возможных подходов является вычисление итоговых метрик: среднего, дисперсии и т. Д. Но при этом вы потеряете всю информацию, связанную с временными рядами. Но данные, извлеченные из формы кривой, могут быть весьма полезными. Я рекомендую вам ознакомиться с этой статьей, где авторы предлагают алгоритм кластеризации временных рядов. Надеюсь, это будет полезно. В дополнение к такой кластеризации Вы можете добавить сводную статистику в список функций.
источник