Я не привык использовать переменные в формате даты в R. Мне просто интересно, можно ли добавить переменную даты в качестве объясняющей переменной в модели линейной регрессии. Если это возможно, как мы можем интерпретировать коэффициент? Это влияние одного дня на итоговую переменную?
Посмотрите мою суть с примером того, что я пытаюсь сделать.
Ответы:
Основываясь на предыдущих комментариях по переполнению стека:
Да, это имеет смысл. Здесь я отвечаю на общий вопрос и с радостью предоставлю экспертам R возможность уточнить важные детали. На мой взгляд, поскольку сейчас речь идет о перекрестной проверке, нам не следует слишком узко фокусироваться на любимом программном обеспечении автора, хотя это важно для единомышленников.
Даты в любом программном обеспечении, если они не числовые, могут быть преобразованы в числовые переменные, выраженные в годах, днях, миллисекундах или чем-либо еще с некоторого времени возникновения. Коэффициент, связанный с каждой датой, имеет знаменательные единицы, какими бы ни были единицы даты. Числовые единицы зависят от единиц ответа или зависимой переменной. (Функции связи без идентификаторов усложняют это, естественно.)
Тем не менее, это обычно имеет смысл, когда даты сдвинуты на источник, который имеет смысл для исследования. Обычно, но не обязательно, происхождение должно быть датой в течение периода обучения или очень близко к нему.
Возможно, самый простой случай - это линейная регрессия на переменную даты в годах. Здесь регрессия некоторыхов
response
наdate
выражена как даты , как 2000 или 2010 подразумевает перехват , который является значениемresponse
в году 0. Откладывая календарную деталь , что не было такого года, такой перехват часто абсурдно большие положительный или отрицательный, что логично, но отвлекает от интерпретации и представления (даже для хорошо информированной аудитории).В качестве реального примера работы со студентами бакалавриата число циклонов в год в определенной области несколько увеличивалось с датой, и линейная тенденция выглядела разумным первым ударом. Перехват от регрессии был большим отрицательным числом, которое вызывало много недоумения, пока не было понято, что это, как всегда, экстраполяция на год 0. Перенос источника на 2000 год дал лучшие результаты. (На самом деле регрессия Пуассона, обеспечивающая положительные прогнозы, была еще лучше, но это другая история.)
date - 2000
Таким образом, регрессия или что-то еще является хорошей идеей. Существенные детали исследования часто указывают на хорошую базовую дату, то есть новое происхождение.Использование других моделей и / или других предикторов не подрывает этот принцип; это просто затемняет это.
Также рекомендуется составлять график результатов, используя самые простые даты. Это могут быть оригинальные даты; это не противоречие, так как это тот же принцип использования того, о чем проще всего думать.
Небольшая мысль показывает, что принцип гораздо более общий. Нам часто лучше (возраст - 20) или что-то подобное, чтобы избежать логических, но неловких прогнозов для возраста 0.
РЕДАКТИРОВАТЬ 21 марта 2019 г. (оригинал 29 июля 2013 г.). Эти аргументы обсуждались в контексте Stata в Кокс, Нью-Джерси, 2015 г. Вид происхождения. Stata Journal 15: 574-587 см. Здесь
РЕДАКТИРОВАТЬ 2 также 4 декабря 2015 года @whuber в комментариях поднимает также важную проблему числовой точности. Часто единицы времени хороши, и итоговые даты или даты-время могут быть очень большими, что поднимает важные вопросы для сумм квадратов и так далее, и так далее. Он приводит пример из R. К этому мы можем добавить (например), что время-дата в Stata - это миллисекунды с начала 1960 года. Эта проблема совсем не специфична для дат, так как обычно она может возникать с очень большими числами. или очень маленький, но стоит тоже пометить.
источник
R
Как было сказано выше, при подходящем масштабировании даты являются отличными регрессорами. Эффекты времени менее вероятно будут линейными, чем даже типичные ковариаты, поэтому я почти всегда использую сплайны регрессии во времени. Некоторые сложные тренды времени требуют много узлов (например, 7 или более), чтобы соответствовать. Ограниченные кубические сплайны (естественные сплайны) обеспечивают более безопасную линейную экстраполяцию после окончания наблюдаемого времени, хотя экстраполяция редко бывает полностью безопасной.
источник