Подводные камни в анализе временных рядов

46

Я только начинаю самообучаться в анализе временных рядов. Я заметил, что есть ряд потенциальных ловушек, которые не применимы к общей статистике. Итак, опираясь на то, что общие статистические грехи? , Я бы хотел спросить:

Каковы общие подводные камни или статистические грехи в анализе временных рядов?

Это задумано как вики сообщества, одна концепция на ответ, и, пожалуйста, не повторяйте более общие статистические ошибки, которые (или должны быть) перечислены в разделе Каковы общие статистические грехи?

naught101
источник

Ответы:

18

Экстраполяция линейной регрессии на временной ряд, где время является одной из независимых переменных в регрессии. Линейная регрессия может аппроксимировать временные ряды в коротком временном масштабе и может быть полезна при анализе, но глупо экстраполировать прямую линию. (Время бесконечно и постоянно увеличивается.)

РЕДАКТИРОВАТЬ: В ответ на вопрос naught101 о «глупости» мой ответ может быть неправильным, но мне кажется, что большинство реальных явлений не увеличиваются или уменьшаются непрерывно навсегда. Большинство процессов имеют ограничивающие факторы: люди перестают расти с ростом, запасы не всегда растут, популяции не могут стать отрицательными, вы не можете наполнить свой дом миллиардом щенков и т. Д. Время, в отличие от большинства независимых переменных, которые приходят на мой взгляд, имеет бесконечную поддержку, так что вы действительно можете представить, как ваша линейная модель предсказывает цену акций Apple через 10 лет, потому что через 10 лет, несомненно, будет. (Принимая во внимание, что вы не будете экстраполировать регрессию роста-веса, чтобы предсказать вес взрослых самцов 20-метрового роста: их нет и не будет.)

Кроме того, временные ряды часто имеют циклические или псевдоциклические компоненты или компоненты случайного блуждания. Как упоминает IrishStat в своем ответе, вы должны учитывать сезонность (иногда сезонность в разных временных масштабах), сдвиги уровней (которые будут делать странные вещи с линейными регрессиями, которые их не учитывают) и т. Д. Линейная регрессия, которая игнорирует циклы, будет подходит на короткий срок, но сильно вводит в заблуждение, если вы экстраполируете его.

Конечно, вы можете столкнуться с проблемами, когда будете экстраполировать, временные ряды или нет. Но мне кажется, что мы слишком часто видим, как кто-то бросает временные ряды (преступления, цены на акции и т. Д.) В Excel, сбрасывает на них ПРОГНОЗ или ЛИСТ и прогнозирует будущее по существу по прямой линии, как если бы цены на акции непрерывно росли (или постоянно снижаться, в том числе идти в отрицательном направлении).

Уэйн
источник
Можете ли вы объяснить, почему это глупо?
naught101
1
+1 за потрясающие примеры. Я точно рассчитываю, сколько щенков я могу разместить в своем доме прямо сейчас: D
naught101
3
Это отличная иллюстрация вашей точки зрения: xkcd.com/605
Зак
1
@naught Марк Твен проделал отличную работу, показав на простейшем языке, почему «глупый» уместен для линейной экстраполяции временного ряда.
whuber
И это: stats.stackexchange.com/a/13904/9007 ... Сходным моментом является экстраполяция полиномиального тренда (особенно высокой степени) или любой другой модели, которая не имеет физической значимости. Я написал сообщение в блоге о том, почему это плохая идея , когда я учил себя октаве.
naught101
13

Обращая внимание на корреляцию между двумя нестационарными временными рядами. (Не удивительно, что у них будет высокий коэффициент корреляции: поиск по «бессмысленной корреляции» и «коинтеграции».)

Например, в Google Correlte пирсинг у собак и ушей имеет коэффициент корреляции 0,84.

Более старый анализ см. В исследовании Юла 1926 года, посвященном проблеме.

Уэйн
источник
Конечно не всегда. x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
naught101
@Wayne Спасибо огромное за статью Йоля. Я цитирую это с 1970 года и никогда не читал. Это хорошо известно в некоторых, по-видимому, маленьких кругах.
IrishStat
7

На верхнем уровне Колмогоров определил независимость как ключевое допущение в статистике - без предположения, что многие важные результаты в статистике не соответствуют действительности, независимо от того, применяются ли они к временным рядам или к более общим задачам анализа.

Последовательные или близкие выборки в большинстве реальных сигналов дискретного времени не являются независимыми, поэтому необходимо соблюдать осторожность, чтобы разделить процесс на детерминистическую модель и компонент стохастического шума. Несмотря на это, предположение о независимом приросте в классическом стохастическом исчислении проблематично: вспомните Нобелевскую экономику 1997 года и взрыв LTCM в 1998 году, который считал лауреатов среди его руководителей (хотя, честно говоря, менеджер фонда Мерри, скорее всего, виноват больше, чем количественный) методы).

alancalvitti
источник
«Анализ временных рядов» как область исследования. По сути, я имею в виду любую вещь, которая может сбить с толку кого-то нового для изучения временных рядов (любого типа и любого типа анализа). Я не ищу исчерпывающих ответов. Проверьте вопрос, на который я ссылаюсь в своем вопросе, чтобы понять, что я пытаюсь сделать здесь.
naught101
Я имел ввиду, какой тип анализа
alancalvitti
Я знаю. Я думаю, что вы упускаете суть вопроса. Не стесняйтесь комментировать общие камни преткновения в любом типе анализа, любого типа проблемы временных рядов, с которыми вы сталкивались. Просто держите его на проблемах, которые характерны для временных рядов.
naught101
Эй @alancalvitti, этот пример экономики звучит интересно. Знаете ли вы хорошее описание, на которое мы могли бы сослаться отсюда?
naught101
Я отредактировал этот ответ, чтобы свести его к основному представленному пункту (чтобы вернуть его к стилю «один балл за ответ»). Это означало удалить материал о спектральном анализе. Возможно, что-то может быть сказано об этом в отдельном ответе (хотя, похоже, речь не идет об ловушках, в частности, вероятно, есть подводные камни, связанные со спектральным анализом, которые мы могли бы здесь отметить). Приведенное выше обсуждение теперь не имеет смысла, но вы, наверное,
понимаете
2

Быть слишком уверенным в результатах вашей модели, потому что вы используете технику / модель (такую ​​как OLS), которая не учитывает автокорреляцию временных рядов.

У меня нет хорошего графика, но книга «Вводные временные ряды с R» (2009, Cowpertwait и др.) Дает разумное интуитивное объяснение: если есть положительная автокорреляция, значения выше или ниже среднего будут иметь тенденцию сохраняться и собраться вместе во времени. Это приводит к менее эффективной оценке среднего значения, что означает, что вам нужно больше данных для оценки среднего значения с той же точностью, чем если бы была нулевая автокорреляция. У вас фактически меньше данных, чем вы думаете.

Процесс OLS (и, следовательно, вы) предполагает, что автокорреляции не существует, поэтому вы также предполагаете, что оценка среднего значения более точна (для количества данных, которое у вас есть), чем она есть на самом деле. Таким образом, вы в конечном итоге быть более уверенным в своих результатах, чем вы должны быть.

(Это может работать по-другому для отрицательной автокорреляции: ваша оценка среднего значения на самом деле более эффективна, чем была бы в противном случае. Мне нечего доказать, но я бы предположил, что положительная корреляция чаще встречается в большинстве случаев реального времени. ряд, чем отрицательная корреляция.)

Уэйн
источник
Пример здесь был бы великолепен, я не до конца понимаю ответ в его нынешнем виде
naught101
Спасибо за правку @Wayne, но я имел в виду реальный пример, желательно с некоторой визуализацией. Очевидно, что другие тоже могут это добавить - это вики сообщества.
naught101
1
@ naught101: Ах. Два из моих трех предложений, которые я сделал здесь, основаны на том, что я узнал, но не обязательно достаточно, чтобы подавать хороший пример. Я постараюсь найти один в Интернете.
Уэйн,
Это только симулированные данные, но мой ответ на другой вопрос имеет некоторый R-код с моделью, соответствующей OLS, а затем более уместно с учетом автокорреляции - со значительно более высокими p-значениями. stats.stackexchange.com/questions/27254/…
Питер Эллис
2

Влияние сдвигов уровня, сезонных импульсов и трендов местного времени ... в дополнение к одноразовым импульсам. Изменения параметров во времени важны для исследования / моделирования. Возможные изменения в дисперсии ошибок во времени должны быть исследованы. Как определить, как на Y влияют современные и запаздывающие значения X. Как определить, могут ли будущие значения X повлиять на текущие значения Y. Как узнать конкретные дни месяца, которые повлияют. Как смоделировать проблемы со смешанной частотой, когда на часовые данные влияют ежедневные значения?

Ничто не попросило меня предоставить более конкретную информацию / примеры о сдвигах и импульсах. С этой целью я сейчас включу еще несколько дискуссий. Ряд, который показывает ACF, предполагающий нестационарность, в действительности обеспечивает "симптом". Одним из предложенных способов является «различие» данных. Упущенное из виду лекарство - это «обесценить» данные. Если у ряда есть «основной» сдвиг уровня в среднем (то есть перехват), то акф всей этой серии может быть легко неверно истолкован, чтобы предложить различие. Я покажу пример серии, которая демонстрирует сдвиг уровня. Если бы я усилил (увеличил) разницу между этими двумя значениями, то акф всей серии показал бы (неверно!) Необходимость различия. Необработанные импульсы / сдвиги уровней / сезонные импульсы / тренды местного времени раздувают дисперсию ошибок, скрывая важность структуры модели, и являются причиной ошибочных оценок параметров и плохих прогнозов. Теперь к примеру. Thвведите описание изображения здесьЭто список из 27 месячных значений. Это график введите описание изображения здесь. Есть четыре импульса и 1 сдвиг уровня И НЕ ТРЕНД! введите описание изображения здесьи введите описание изображения здесь. Остатки от этой модели предполагают процесс белого шума введите описание изображения здесь. Некоторые (большинство!) Коммерческие и даже бесплатные пакеты прогнозирования дают следующую глупость в результате принятия модели тренда с аддитивными сезонными факторами введите описание изображения здесь. В заключение и перефразировать Марка Твена. «Есть бессмыслица и бессмыслица, но самое бессмысленное отсутствие их всех - статистическая ерунда!» по сравнению с более разумным введите описание изображения здесь. Надеюсь это поможет !

IrishStat
источник
1
В самом деле? Это все подводные камни и грехи ? (Перечитайте подчеркнутую часть вопроса!) Возможно, вы имеете в виду противоположное тому, что написали?
whuber
Цель моих комментариев состояла в том, чтобы указать на ловушки, связанные с отсутствием развлечения или рассмотрением некоторых из этих возможных структур реального мира. Нужно избегать предположений, которые не обоснованно обоснованы, иначе можно получить очень сомнительные результаты.
IrishStat
3
Я понял, что это было намерение, но в его нынешнем виде ваш ответ легко понять неправильно. Например, грех оценивать «воздействие» «одноразовых импульсов» или грех не делать этого? Это достаточно расплывчато, чтобы можно было обосновать любую интерпретацию! (Да, это грех, потому что одноразовые импульсы могут быть просто выбросами, на которые вы не хотите оказывать чрезмерное влияние, и учет их всех может привести к чрезмерной параметризации модели; нет, их необходимо включать, потому что их эффекты могут сохраняться для долгое время и игнорирование, которое может
сместить
@whuber Если эффекты одноразового импульса сохраняются, это можно смоделировать как последовательность одноразовых импульсов в последовательных точках. Это не так элегантно, как могло бы быть, но, тем не менее, эффективно. Как вы совершенно правильно заявили, вы не хотите, чтобы ошибочные значения искажали оценки параметров повторяющейся структуры, поэтому «грех» не рассматривать неопределенную детерминированную структуру, такую ​​как импульсы, сдвиги уровней, сезонные импульсы и / или локальные тренды времени.
IrishStat
Я думаю, что это был бы действительно интересный ответ, если бы первое предложение (сдвиги уровней и импульсы) было значительно расширено (с некоторыми примерами), а остальное было отброшено. Гетероскедастичность сделала бы хороший отдельный ответ.
naught101
1

Определение тренда как линейного роста с течением времени.

Хотя некоторые тренды так или иначе линейны (см. Цену акций Apple), и хотя график временного ряда выглядит как линейный график, на котором вы можете найти линейную регрессию, большинство трендов не являются линейными.

Существуют изменения шага, такие как изменения, когда что-то произошло в определенный момент времени, которое изменило поведение меры ( «Мост рухнул, и с тех пор по нему не проезжают машины »).

Другим популярным трендом является «Buzz» - экспоненциальный рост и аналогичное резкое снижение впоследствии ( «Наша маркетинговая кампания имела огромный успех, но эффект исчез через пару недель» ).

Знание правильной модели (логистическая регрессия и т. Д.) Тренда во временном ряду имеет решающее значение в способности обнаружить его в данных временного ряда.

парень
источник
1

В дополнение к некоторым замечательным моментам, которые уже упоминались, я бы добавил:

  1. Неспособность определить длинные циклы или сезонность - путем изучения только данных за «недостаточно длинный» период времени
  2. Неспособность оценить ошибку прогнозирования за прошлые периоды ( тестирование на истории )
  3. Неспособность обнаружить и справиться с изменениями режима

Эти проблемы связаны не со статистическими методами, а с планом исследования, то есть с какими данными и как оценивать результаты.

Сложная часть с пунктом 1. убедиться, что мы наблюдали достаточный период данных, чтобы сделать выводы о будущем. Во время моей первой лекции по временным рядам профессор нарисовал на доске длинную синусоидальную кривую и указал, что длинные циклы выглядят как линейные тренды при наблюдении за коротким окном (довольно просто, но урок застрял у меня).

Пункт 2. особенно актуален, если ошибки вашей модели имеют некоторые практические последствия. Среди других областей, он широко используется в финансах, но я бы сказал, что оценка ошибок прогнозирования в прошлых периодах имеет смысл для всех моделей временных рядов, где данные позволяют это делать.

Пункт 3. вновь затрагивает вопрос о том, какая часть прошлых данных является репрезентативной для будущего. Это сложная тема с большим количеством литературы - я назову мой личный фаворит: кабачок и Макдональд в качестве примера.

средства к смыслу
источник
1

Избегайте псевдонимов в выбранных временных рядах. Если вы анализируете данные временных рядов, которые выбираются с регулярными интервалами, то частота дискретизации должна быть в два раза больше частоты самого высокого частотного компонента в данных, которые вы выбираете. Это теория дискретизации Найквиста, и она применяется к цифровому аудио, но также и к любым временным рядам, дискретизированным через регулярные интервалы. Способ избежать алиасинга состоит в том, чтобы отфильтровать все частоты выше частоты Найквиста, которая составляет половину частоты дискретизации. Например, для цифрового звука частота дискретизации 48 кГц потребует фильтра нижних частот с частотой среза ниже 24 кГц.
Эффект сглаживания можно увидеть, когда колеса, кажется, вращаются назад, из-за стробископического эффекта, когда частота стробирования близка к скорости вращения колеса. Наблюдаемая медленная скорость является псевдонимом фактической скорости вращения.

Marty
источник