Имеет ли смысл использовать переменную даты в регрессии?

17

Я не привык использовать переменные в формате даты в R. Мне просто интересно, можно ли добавить переменную даты в качестве объясняющей переменной в модели линейной регрессии. Если это возможно, как мы можем интерпретировать коэффициент? Это влияние одного дня на итоговую переменную?

Посмотрите мою суть с примером того, что я пытаюсь сделать.

PAC
источник
3
Дата может быть преобразована в число.
у меня сложилось впечатление, что R делает это автоматически
PAC
3
Но полученные цифры часто бывают огромными, что может привести к проблемам. Лучше преобразовать себя, например, во временные шаги (часы или дни или ...) с начала измерений. Это также облегчает интерпретацию перехвата.
Роланд
3
Преобразовать в коэффициент (чтобы получить фиксированные эффекты дня) или преобразовать в числовое значение и изменить его масштаб, чтобы значение первого дня равнялось 0, чтобы получить линейный эффект дней с момента возникновения.
Томас
1
Это действительно хороший вопрос. Я думаю, что это и статистический вопрос, и вопрос программирования. Вопрос программирования заключается в том, как R работает с датами, когда мы ставим даты в качестве объясняющей переменной в регрессионной модели, а статистический вопрос касается точной интерпретации коэффициента.
PAC

Ответы:

17

Основываясь на предыдущих комментариях по переполнению стека:

Да, это имеет смысл. Здесь я отвечаю на общий вопрос и с радостью предоставлю экспертам R возможность уточнить важные детали. На мой взгляд, поскольку сейчас речь идет о перекрестной проверке, нам не следует слишком узко фокусироваться на любимом программном обеспечении автора, хотя это важно для единомышленников.

Даты в любом программном обеспечении, если они не числовые, могут быть преобразованы в числовые переменные, выраженные в годах, днях, миллисекундах или чем-либо еще с некоторого времени возникновения. Коэффициент, связанный с каждой датой, имеет знаменательные единицы, какими бы ни были единицы даты. Числовые единицы зависят от единиц ответа или зависимой переменной. (Функции связи без идентификаторов усложняют это, естественно.)

Тем не менее, это обычно имеет смысл, когда даты сдвинуты на источник, который имеет смысл для исследования. Обычно, но не обязательно, происхождение должно быть датой в течение периода обучения или очень близко к нему.

Возможно, самый простой случай - это линейная регрессия на переменную даты в годах. Здесь регрессия некоторыхов responseна dateвыражена как даты , как 2000 или 2010 подразумевает перехват , который является значением responseв году 0. Откладывая календарную деталь , что не было такого года, такой перехват часто абсурдно большие положительный или отрицательный, что логично, но отвлекает от интерпретации и представления (даже для хорошо информированной аудитории).

В качестве реального примера работы со студентами бакалавриата число циклонов в год в определенной области несколько увеличивалось с датой, и линейная тенденция выглядела разумным первым ударом. Перехват от регрессии был большим отрицательным числом, которое вызывало много недоумения, пока не было понято, что это, как всегда, экстраполяция на год 0. Перенос источника на 2000 год дал лучшие результаты. (На самом деле регрессия Пуассона, обеспечивающая положительные прогнозы, была еще лучше, но это другая история.)

date - 2000Таким образом, регрессия или что-то еще является хорошей идеей. Существенные детали исследования часто указывают на хорошую базовую дату, то есть новое происхождение.

Использование других моделей и / или других предикторов не подрывает этот принцип; это просто затемняет это.

Также рекомендуется составлять график результатов, используя самые простые даты. Это могут быть оригинальные даты; это не противоречие, так как это тот же принцип использования того, о чем проще всего думать.

Небольшая мысль показывает, что принцип гораздо более общий. Нам часто лучше (возраст - 20) или что-то подобное, чтобы избежать логических, но неловких прогнозов для возраста 0.

РЕДАКТИРОВАТЬ 21 марта 2019 г. (оригинал 29 июля 2013 г.). Эти аргументы обсуждались в контексте Stata в Кокс, Нью-Джерси, 2015 г. Вид происхождения. Stata Journal 15: 574-587 см. Здесь

РЕДАКТИРОВАТЬ 2 также 4 декабря 2015 года @whuber в комментариях поднимает также важную проблему числовой точности. Часто единицы времени хороши, и итоговые даты или даты-время могут быть очень большими, что поднимает важные вопросы для сумм квадратов и так далее, и так далее. Он приводит пример из R. К этому мы можем добавить (например), что время-дата в Stata - это миллисекунды с начала 1960 года. Эта проблема совсем не специфична для дат, так как обычно она может возникать с очень большими числами. или очень маленький, но стоит тоже пометить.

Ник Кокс
источник
1
Эконометрически говоря, дата часто используется в качестве прокси для неизмеримой переменной или просто данных, которые вы не можете легко получить. Это можно увидеть в увеличении темпов продаж определенного продукта новой компанией с течением времени по мере того, как растет узнаваемость бренда. Поскольку у вас, скорее всего, нет метрики для узнаваемости бренда, дату можно использовать в качестве прокси. Это дало бы другим регрессорам «более реалистичные» коэффициенты. ** TL: DR ** вы должны быть осторожны при использовании даты в вашей регрессии, не думая о том, с какими неизмеренными факторами дата может коррелировать с тем, что повлияет на вашу независимую переменную
Скотт,
1
Хороший совет. Я бы предположил, что (функция) календарной даты, как правило, является прокси для некоторого процесса во времени, который трудно уловить иначе, поэтому эта точка выходит за рамки эконометрики.
Ник Кокс
1
Я так же люблю синусы и косинусы, как и любой другой, но какая выборка проблем в разных дисциплинах приводит к такому суждению?
Ник Кокс
1
Если интересно, смотрите stata-journal.com/sjsearch.html?choice=keyword&q=season, где приведены ссылки на некоторые из моих работ по сезонности.
Ник Кокс
3
R1
5

Как было сказано выше, при подходящем масштабировании даты являются отличными регрессорами. Эффекты времени менее вероятно будут линейными, чем даже типичные ковариаты, поэтому я почти всегда использую сплайны регрессии во времени. Некоторые сложные тренды времени требуют много узлов (например, 7 или более), чтобы соответствовать. Ограниченные кубические сплайны (естественные сплайны) обеспечивают более безопасную линейную экстраполяцию после окончания наблюдаемого времени, хотя экстраполяция редко бывает полностью безопасной.

Фрэнк Харрелл
источник