Я не знаю, является ли это общей / лучшей практикой, но это другая точка зрения по этому вопросу.
Если у вас есть, скажем, дата, вы можете рассматривать каждое поле как «переменную категории» вместо «непрерывной переменной». День будет иметь значение в наборе {1, 2 ..., 31}, месяц будет иметь значение в {1, ..., 12}, а для года вы выбираете минимальное и максимальное значения. и построить набор.
Затем, поскольку конкретные числовые значения дней, месяцев и лет могут оказаться бесполезными для поиска трендов в данных, используйте двоичное представление для кодирования числовых значений, каждое из которых является функцией. Например, месяц 5 будет 0 0 0 0 1 0 0 0 0 0 0 0
(11 0 - это 1 в 5-й позиции, каждый бит является признаком).
Таким образом, имея, например, 10 лет в «наборе года», дата будет преобразована в вектор из 43 признаков (= 31 + 12 + 10). Используя «разреженные векторы», количество функций не должно быть проблемой.
Нечто подобное можно сделать для временных данных, дня недели, дня месяца ...
Все зависит от того, на какой вопрос ответит ваша модель машинного обучения.
Контекст моего ответа : до сих пор были хорошие отзывы. Но я хочу расширить разговор, предполагая, что вы говорите о приложении машинного обучения, чтобы предсказать будущие значения этого конкретного временного ряда. Учитывая этот контекст, мой совет ниже.
Совет : сначала рассмотрите традиционные стратегии статистического прогнозирования (например, экспоненциальное сглаживание, SARIMAX или динамическую регрессию) в качестве основы для эффективности прогнозирования. Хотя машинное обучение показало большие перспективы для различных приложений, для временных рядов существуют проверенные и достоверные статистические методы, которые могут лучше служить вам для вашего приложения. Я хотел бы обратить ваше внимание на две последние статьи:
Если вы ищете хорошую производительность, выберите метрику для сравнения с несколькими моделями (например, как MASE) и просмотрите несколько статистических (ссылки ниже) и моделей машинного обучения (со стратегиями развития функций, упомянутыми выше).
Ура,
Ресурсы для изучения статистического прогнозирования . Я бы начал с обзора бесплатного учебника Роба Дж. Хиндмана здесь: https://otexts.org/fpp2/ . Текст основан на пакете R, который вы можете легко включить в свой анализ: https://otexts.org/fpp2/appendix-using-r.html . Наконец, обратите внимание на разницу между перекрестной проверкой поперечного сечения и перекрестной проверкой временных рядов, как описано здесь: https://robjhyndman.com/hyndsight/tscv/ .
источник