Экстраполяция линейной регрессии на временной ряд, где время является одной из независимых переменных в регрессии. Линейная регрессия может аппроксимировать временные ряды в коротком временном масштабе и может быть полезна при анализе, но глупо экстраполировать прямую линию. (Время бесконечно и постоянно увеличивается.)
РЕДАКТИРОВАТЬ: В ответ на вопрос naught101 о «глупости» мой ответ может быть неправильным, но мне кажется, что большинство реальных явлений не увеличиваются или уменьшаются непрерывно навсегда. Большинство процессов имеют ограничивающие факторы: люди перестают расти с ростом, запасы не всегда растут, популяции не могут стать отрицательными, вы не можете наполнить свой дом миллиардом щенков и т. Д. Время, в отличие от большинства независимых переменных, которые приходят на мой взгляд, имеет бесконечную поддержку, так что вы действительно можете представить, как ваша линейная модель предсказывает цену акций Apple через 10 лет, потому что через 10 лет, несомненно, будет. (Принимая во внимание, что вы не будете экстраполировать регрессию роста-веса, чтобы предсказать вес взрослых самцов 20-метрового роста: их нет и не будет.)
Кроме того, временные ряды часто имеют циклические или псевдоциклические компоненты или компоненты случайного блуждания. Как упоминает IrishStat в своем ответе, вы должны учитывать сезонность (иногда сезонность в разных временных масштабах), сдвиги уровней (которые будут делать странные вещи с линейными регрессиями, которые их не учитывают) и т. Д. Линейная регрессия, которая игнорирует циклы, будет подходит на короткий срок, но сильно вводит в заблуждение, если вы экстраполируете его.
Конечно, вы можете столкнуться с проблемами, когда будете экстраполировать, временные ряды или нет. Но мне кажется, что мы слишком часто видим, как кто-то бросает временные ряды (преступления, цены на акции и т. Д.) В Excel, сбрасывает на них ПРОГНОЗ или ЛИСТ и прогнозирует будущее по существу по прямой линии, как если бы цены на акции непрерывно росли (или постоянно снижаться, в том числе идти в отрицательном направлении).
Обращая внимание на корреляцию между двумя нестационарными временными рядами. (Не удивительно, что у них будет высокий коэффициент корреляции: поиск по «бессмысленной корреляции» и «коинтеграции».)
Например, в Google Correlte пирсинг у собак и ушей имеет коэффициент корреляции 0,84.
Более старый анализ см. В исследовании Юла 1926 года, посвященном проблеме.
источник
x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
На верхнем уровне Колмогоров определил независимость как ключевое допущение в статистике - без предположения, что многие важные результаты в статистике не соответствуют действительности, независимо от того, применяются ли они к временным рядам или к более общим задачам анализа.
Последовательные или близкие выборки в большинстве реальных сигналов дискретного времени не являются независимыми, поэтому необходимо соблюдать осторожность, чтобы разделить процесс на детерминистическую модель и компонент стохастического шума. Несмотря на это, предположение о независимом приросте в классическом стохастическом исчислении проблематично: вспомните Нобелевскую экономику 1997 года и взрыв LTCM в 1998 году, который считал лауреатов среди его руководителей (хотя, честно говоря, менеджер фонда Мерри, скорее всего, виноват больше, чем количественный) методы).
источник
Быть слишком уверенным в результатах вашей модели, потому что вы используете технику / модель (такую как OLS), которая не учитывает автокорреляцию временных рядов.
У меня нет хорошего графика, но книга «Вводные временные ряды с R» (2009, Cowpertwait и др.) Дает разумное интуитивное объяснение: если есть положительная автокорреляция, значения выше или ниже среднего будут иметь тенденцию сохраняться и собраться вместе во времени. Это приводит к менее эффективной оценке среднего значения, что означает, что вам нужно больше данных для оценки среднего значения с той же точностью, чем если бы была нулевая автокорреляция. У вас фактически меньше данных, чем вы думаете.
Процесс OLS (и, следовательно, вы) предполагает, что автокорреляции не существует, поэтому вы также предполагаете, что оценка среднего значения более точна (для количества данных, которое у вас есть), чем она есть на самом деле. Таким образом, вы в конечном итоге быть более уверенным в своих результатах, чем вы должны быть.
(Это может работать по-другому для отрицательной автокорреляции: ваша оценка среднего значения на самом деле более эффективна, чем была бы в противном случае. Мне нечего доказать, но я бы предположил, что положительная корреляция чаще встречается в большинстве случаев реального времени. ряд, чем отрицательная корреляция.)
источник
Влияние сдвигов уровня, сезонных импульсов и трендов местного времени ... в дополнение к одноразовым импульсам. Изменения параметров во времени важны для исследования / моделирования. Возможные изменения в дисперсии ошибок во времени должны быть исследованы. Как определить, как на Y влияют современные и запаздывающие значения X. Как определить, могут ли будущие значения X повлиять на текущие значения Y. Как узнать конкретные дни месяца, которые повлияют. Как смоделировать проблемы со смешанной частотой, когда на часовые данные влияют ежедневные значения?
Ничто не попросило меня предоставить более конкретную информацию / примеры о сдвигах и импульсах. С этой целью я сейчас включу еще несколько дискуссий. Ряд, который показывает ACF, предполагающий нестационарность, в действительности обеспечивает "симптом". Одним из предложенных способов является «различие» данных. Упущенное из виду лекарство - это «обесценить» данные. Если у ряда есть «основной» сдвиг уровня в среднем (то есть перехват), то акф всей этой серии может быть легко неверно истолкован, чтобы предложить различие. Я покажу пример серии, которая демонстрирует сдвиг уровня. Если бы я усилил (увеличил) разницу между этими двумя значениями, то акф всей серии показал бы (неверно!) Необходимость различия. Необработанные импульсы / сдвиги уровней / сезонные импульсы / тренды местного времени раздувают дисперсию ошибок, скрывая важность структуры модели, и являются причиной ошибочных оценок параметров и плохих прогнозов. Теперь к примеру. ThЭто список из 27 месячных значений. Это график . Есть четыре импульса и 1 сдвиг уровня И НЕ ТРЕНД! и . Остатки от этой модели предполагают процесс белого шума . Некоторые (большинство!) Коммерческие и даже бесплатные пакеты прогнозирования дают следующую глупость в результате принятия модели тренда с аддитивными сезонными факторами . В заключение и перефразировать Марка Твена. «Есть бессмыслица и бессмыслица, но самое бессмысленное отсутствие их всех - статистическая ерунда!» по сравнению с более разумным . Надеюсь это поможет !
источник
Определение тренда как линейного роста с течением времени.
Хотя некоторые тренды так или иначе линейны (см. Цену акций Apple), и хотя график временного ряда выглядит как линейный график, на котором вы можете найти линейную регрессию, большинство трендов не являются линейными.
Существуют изменения шага, такие как изменения, когда что-то произошло в определенный момент времени, которое изменило поведение меры ( «Мост рухнул, и с тех пор по нему не проезжают машины »).
Другим популярным трендом является «Buzz» - экспоненциальный рост и аналогичное резкое снижение впоследствии ( «Наша маркетинговая кампания имела огромный успех, но эффект исчез через пару недель» ).
Знание правильной модели (логистическая регрессия и т. Д.) Тренда во временном ряду имеет решающее значение в способности обнаружить его в данных временного ряда.
источник
В дополнение к некоторым замечательным моментам, которые уже упоминались, я бы добавил:
Эти проблемы связаны не со статистическими методами, а с планом исследования, то есть с какими данными и как оценивать результаты.
Сложная часть с пунктом 1. убедиться, что мы наблюдали достаточный период данных, чтобы сделать выводы о будущем. Во время моей первой лекции по временным рядам профессор нарисовал на доске длинную синусоидальную кривую и указал, что длинные циклы выглядят как линейные тренды при наблюдении за коротким окном (довольно просто, но урок застрял у меня).
Пункт 2. особенно актуален, если ошибки вашей модели имеют некоторые практические последствия. Среди других областей, он широко используется в финансах, но я бы сказал, что оценка ошибок прогнозирования в прошлых периодах имеет смысл для всех моделей временных рядов, где данные позволяют это делать.
Пункт 3. вновь затрагивает вопрос о том, какая часть прошлых данных является репрезентативной для будущего. Это сложная тема с большим количеством литературы - я назову мой личный фаворит: кабачок и Макдональд в качестве примера.
источник
Избегайте псевдонимов в выбранных временных рядах. Если вы анализируете данные временных рядов, которые выбираются с регулярными интервалами, то частота дискретизации должна быть в два раза больше частоты самого высокого частотного компонента в данных, которые вы выбираете. Это теория дискретизации Найквиста, и она применяется к цифровому аудио, но также и к любым временным рядам, дискретизированным через регулярные интервалы. Способ избежать алиасинга состоит в том, чтобы отфильтровать все частоты выше частоты Найквиста, которая составляет половину частоты дискретизации. Например, для цифрового звука частота дискретизации 48 кГц потребует фильтра нижних частот с частотой среза ниже 24 кГц.
Эффект сглаживания можно увидеть, когда колеса, кажется, вращаются назад, из-за стробископического эффекта, когда частота стробирования близка к скорости вращения колеса. Наблюдаемая медленная скорость является псевдонимом фактической скорости вращения.
источник