Является ли «час дня», где значение может быть 0, 1, 2, ..., 23, категориальной переменной? Я хотел бы сказать нет, так как 5, например, «ближе» к 4 или 6, чем к 3 или 7.
С другой стороны, существует разрыв между 23 и 0.
Так это вообще считается категоричным или нет? Обратите внимание, что «час» - это одна из независимых переменных, а не та, которую я пытаюсь предсказать.
categorical-data
circular-statistics
Пол Райнерс
источник
источник
Ответы:
В зависимости от того, что вы хотите моделировать, часы (и многие другие атрибуты, такие как времена года) на самом деле являются порядковыми циклическими переменными. В случае сезонов вы можете считать их более или менее категоричными, а в случае часов вы можете также моделировать их как непрерывные.
Однако использование часов в вашей модели в форме, которая не заботится о цикличности для вас, не будет плодотворным. Вместо этого попробуйте придумать какое-то преобразование. Используя часы, вы можете использовать тригонометрический подход
Таким образом вы бы вместо этого использовали
xhr
иyhr
для моделирования. Смотрите этот пост, например: Использование круговых предикторов в линейной регрессии .источник
xhr = sin(4*pi*hr/24)
,yhr = cos(4*pi*hr/24)
, и так далее могут быть добавлены, до точки , где с достаточно наблюдений , вы можете также лечить часов в день , как категорично.)Час дня не лучше всего представить в виде категориальной переменной, потому что существует естественное упорядочение значений. Например, цвет волос является категоричным, потому что упорядочение категорий не имеет значения - {красный, коричневый, светлый} так же действителен, как {светлый, коричневый, красный}. Час дня, с другой стороны, имеет естественный порядок - 9 утра ближе к 10 или 8 утра, чем к 6 вечера. Лучше всего рассматривать ее как дискретную порядковую переменную. Он имеет дополнительную характеристику цикличности, поскольку 12:00 следует за 11:00 и предшествует 1:00.
источник
Теоретически, это зависит от того, как вы форматируете переменную, т. Е. Она может быть «непрерывной» (смоделированной одним коэффициентом) или категориальной (коэффициент на «час» дня). Вы также можете сделать сочетание обеих функций, например, по частям.
Практически, поскольку 0 и 23 - это, по сути, один и тот же «час» дня, я бы рассмотрел группирование периодов дня в более крупные, более однородные и заслуживающие доверия группировки. Например, с 8-часовыми интервалами - с 8:00 до 16:00, с 16:00 до 12:00 и с 12 до 8:00.
источник