Техника извлечения признаков - суммирование последовательности данных

11

Я часто строю модель (классификацию или регрессию), где у меня есть некоторые предикторные переменные, которые являются последовательностями, и я пытался найти технические рекомендации для их обобщения наилучшим образом, чтобы включить их в качестве предикторов в модель.

В качестве конкретного примера, скажем, строится модель, позволяющая предсказать, покинет ли клиент компанию в ближайшие 90 дней (в любое время между t и t + 90; таким образом, это бинарный результат). Одним из доступных предикторов является уровень финансового баланса клиентов за периоды от t_0 до t-1. Может быть, это представляет ежемесячные наблюдения за предыдущие 12 месяцев (т.е. 12 измерений).

Я ищу способы построения функций из этой серии. Я использую описания каждой серии клиентов, такие как среднее, высокое, низкое, стандартное отклонение, соответствую регрессии OLS, чтобы получить тренд. Есть ли у них другие методы расчета характеристик? Другие меры изменения или волатильности?

ДОБАВЛЯТЬ:

Как упомянуто в ответе ниже, я также рассмотрел (но забыл добавить здесь) использование динамической деформации времени (DTW), а затем иерархическую кластеризацию на полученной матрице расстояний - создание некоторого количества кластеров и затем использование принадлежности к кластеру в качестве функции. Оценка результатов тестирования, вероятно, должна будет следовать процессу, в котором DTW был выполнен для новых случаев и центроидов кластера - сопоставление нового ряда данных с их ближайшими центроидами ...

B_Miner
источник

Ответы:

7

ЛЮБЛЮ, чтобы увидеть написанную коробку, в которой собраны тематические исследования по разработке / извлечению функций

Пожалуйста, сообщите, если это поможет

  1. Дискретность данных временных рядов http://arxiv.org/ftp/q-bio/papers/0505/0505028.pdf

  2. Оптимизация дискретизации временных рядов для обнаружения знаний https://www.uni-marburg.de/fb12/datenbionik/pdf/pubs/2005/moerchen05optimizing

  3. Опыт SAX: новое символическое представление временных рядов http://cs.gmu.edu/~jessica/SAX_DAMI_preprint.pdf

  4. Индексирование для интерактивного исследования серии больших данных http://acs.ict.ac.cn/storage/slides/Indexing_for_Interactive_Exploration_of_Big_Data_Series.pdf

  5. Обобщенная характеристика Extraction для структурного распознавания в данном временном ряде http://www.semanticscholar.org/paper/Generalized-Feature-Extraction-for-Structural-Olszewski-Maxion/7838bcd87bb6616e9fd3ffd92d4676a7082da34c

  6. Вычисление и визуализация динамического выравнивания временной деформации в R: пакет dtw https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf

SemanticBeeng
источник
2

Здесь вы пытаетесь уменьшить размерность ваших функций. Вы можете искать уменьшение размерности, чтобы получить несколько вариантов, но один очень популярный метод - это анализ основных компонентов (PCA). Основные компоненты не могут быть интерпретированы, как варианты, которые вы упомянули, но они хорошо суммируют всю информацию.

Бен
источник
Меня беспокоит этот ответ, что PCA не распознает четкую зависимость между сериями t и t + 1.
B_Miner
Если т и т + 1 зависимость является тренд или сезонность - рассмотреть извлекая его и дело с остальными , как с независимыми переменными.
Диего
2

Извлечение функций - это всегда сложная и менее обсуждаемая тема в литературе, поскольку она широко зависит от приложения.

Некоторые идеи, которые вы можете попробовать:

  • Необработанные данные, измеряется изо дня в день. Это вроде очевидно, с некоторыми последствиями и дополнительной предварительной обработки (нормализации) для того, чтобы сделать временные рамки разной длины, сравнимой.
  • Высшие моменты: асимметрия, эксцесс и т. Д.
  • Производное (ые): скорость эволюции
  • Промежуток времени не так велик, но, возможно, стоит попробовать некоторые функции анализа временных рядов, например, автокорреляцию.
  • Некоторые индивидуальные особенности, как нарушение сроков в течение нескольких недель и измерения количества вы уже измеряют каждую неделю по отдельности. Тогда нелинейный классификатор будет иметь возможность комбинировать, например, первую неделю черты с последней неделей особенности для того, чтобы получить представление об эволюции во время.
iliasfl
источник
Хорошие предложения! Можете ли вы конкретизировать использование производных больше?
B_Miner
Я полностью согласен с первым утверждением. Я ЛЮБЛЮ, чтобы увидеть коробку, в которой собраны тематические исследования по разработке / извлечению функций. Пословица заключается в том, что создание функции гораздо важнее, чем последний лучший алгоритм в прогнозирующей производительности модели.
B_Miner
2

На первый взгляд, вам нужно извлечь элементы из вашего временного ряда (x - 12) - x. Одним из возможных подходов является вычисление итоговых метрик: среднего, дисперсии и т. Д. Но при этом вы потеряете всю информацию, связанную с временными рядами. Но данные, извлеченные из формы кривой, могут быть весьма полезными. Я рекомендую вам ознакомиться с этой статьей, где авторы предлагают алгоритм кластеризации временных рядов. Надеюсь, это будет полезно. В дополнение к такой кластеризации Вы можете добавить сводную статистику в список функций.

sobach
источник
Спасибо за ссылку. Я также подумал об использовании DTW и иерархической кластеризации. Я экспериментировал с пакетом R для DWT. jstatsoft.org/v31/i07/paper
B_Miner
1
Я специально рассмотрел создание n кластеров и использование членства в кластерах в качестве функции.
B_Miner