Какой смысл в анализе временных рядов?

29

В чем смысл анализа временных рядов?

Существует множество других статистических методов, таких как регрессия и машинное обучение, которые имеют очевидные варианты использования: регрессия может предоставить информацию о взаимосвязи между двумя переменными, в то время как машинное обучение отлично подходит для прогнозирования.

Но пока я не вижу, для чего нужен анализ временных рядов. Конечно, я могу приспособить модель ARIMA и использовать ее для прогнозирования, но что хорошего в том, что доверительные интервалы для этого прогноза будут огромными? Есть причина, по которой никто не может предсказать фондовый рынок, несмотря на то, что он является самой управляемой данными отраслью в мировой истории.

Кроме того, как я могу использовать его, чтобы понять мой процесс дальше? Конечно, я могу построить ACF и сказать «ага! Какая-то зависимость!», Но что тогда? В чем смысл? Конечно, есть зависимость, поэтому вы начинаете анализ временных рядов. Вы уже знали, что была зависимость . Но для чего вы собираетесь его использовать?

Dhalsim
источник
13
Есть и другие варианты использования, кроме финансов и экономики, где они работают нормально.
user2974951
29
Вы не можете предсказать фондовый рынок, используя другие статистические и машинные методы обучения, это также делает их бесполезными?
Тим
16
Вы, кажется, подразумеваете, что ARIMA не является формой регрессии. Это.
Firebug
10
Я думаю, что это хороший вопрос, даже если ответ кажется очевидным для экспертов.
gung - Восстановить Монику
6
Я позволю себе не согласиться с @gung и другими, потому что наименьшее количество исследовательских усилий ответит на это.
whuber

Ответы:

54

Одним из основных применений является . Я кормил свою семью уже более десяти лет, прогнозируя, сколько единиц конкретного продукта продаст супермаркет завтра, чтобы он мог заказать достаточный запас, но не слишком много. В этом есть деньги.

Другие случаи использования прогнозирования приведены в публикациях, таких как Международный журнал прогнозирования или Форсайт . (Полное раскрытие: я помощник редактора Форсайт .)

Да, иногда s огромен. (Я предполагаю, что вы имеете в виду ИП, а не s. Есть разница. ) Это просто означает, что процесс трудно прогнозировать. Тогда вам нужно смягчить. При прогнозировании продаж в супермаркете это означает, что вам нужно много страхового запаса. При прогнозировании повышения уровня моря это означает, что вам нужно строить более высокие дамбы. Я бы сказал, что большой интервал прогнозирования дает полезную информацию.

И для всех случаев использования прогнозирования полезен анализ , хотя прогнозирование является более важной темой. Вы можете часто улучшать прогнозы, принимая во внимание зависимости в своих временных рядах, поэтому вам нужно понять их с помощью анализа, который является более конкретным, чем просто знание о наличии зависимостей.

Кроме того, люди интересуются временными рядами, даже если они не прогнозируют. Эконометрики любят обнаруживать точки изменения в макроэкономических временных рядах. Или оцените влияние вмешательства, такого как изменение налогового законодательства, на ВВП или что-то еще. Вы можете просмотреть свой любимый журнал по эконометрике для большего вдохновения.

С. Коласса - Восстановить Монику
источник
14
+1. Это полезно и в других местах. Анализ временных рядов, безусловно, предупредит вас о событиях (о которых вы не знали), которые влияют на результат, который вас интересует. Я и все мои коллеги были совершенно ошеломлены, обнаружив, что мы, как правило, были немного хуже в химических анализах продуктов по утрам во вторник. Мы проследили это до графика очистки с благими намерениями, у которого были некоторые недостатки. За год мы сэкономили около миллиона и улучшили количество продукта с 1,7 до 1,9. Извлеченный урок: всегда делайте элементарный анализ временных рядов по любой вариационной проблеме.
Стиан Иттервик
+1. @ Стефан Коласса, ваш ответ подчеркивает, как прогнозы используются в реальном мире, что является моей интерпретацией вопроса ОП. Точка интервала прогнозирования и (половина) длина - это именно та информация, которая вам нужна для планирования стратегий смягчения последствий. Если вы строите дамбы, чтобы предотвратить затопление Манхэттена, и ваш новый метод временных рядов достаточно сокращает интервал прогнозирования, вы можете снизить стоимость строительства дамбы, используя только необходимые ресурсы. Mutatis mutandis применяется для вашего примера бакалеи.
Лукас Робертс
13

Цели в TS Анализ из слайдов урока М. Детлинг:

1) Разведочный анализ: визуализация свойств серии

  • сюжет временного ряда
  • разложение на тренд / сезонный характер / случайная ошибка
  • коррелограмма для понимания структуры зависимостей

2) Моделирование: подгонка стохастической модели к данным, которые представляют и отражают наиболее важные свойства ряда

  • сделано предварительное или с предварительным знанием
  • выбор модели и оценка параметров имеет решающее значение
  • логический вывод: насколько хорошо модель соответствует данным?

3) Прогнозирование: прогнозирование будущих наблюдений с мерой неопределенности

  • в основном на основе моделей, использует зависимости и прошлые данные
  • это экстраполяция, поэтому часто брать с зерном соли
  • похоже на вождение автомобиля, глядя в зеркало заднего стекла

4) Управление процессом: Выход (физического) процесса определяет временной ряд

  • стохастическая модель соответствует наблюдаемым данным
  • это позволяет понять как сигнал, так и шум
  • возможно контролировать нормальные / аномальные колебания

5) Регрессия временных рядов: моделирование временных рядов ответов с использованием 1 или более входных рядов. Подгонка этой модели в предположении ошибки iid:

  • приводит к непредвзятым оценкам, но ...
  • часто грубо ошибочные стандартные ошибки
  • таким образом, доверительные интервалы и тесты вводят в заблуждение

О наличии помеченной проблемы:

  • Эти TS очень изменчивы, что сложно моделировать.
  • Например, изменение закона, касающегося компании, может привести к изменению процесса ТС ... как какой-либо статистический инструмент может это предсказать?

О последовательной корреляции:

  • В отличие от многомерной статистики, данные во временных рядах обычно не идентифицируются, а последовательно коррелируются.
  • Эта информация также может быть полезна для обнаружения чего-то, что не было идентифицировано, например, например, грязного лабораторного прибора.
Николь Оригами Фокс
источник
1
Я бы добавил классификацию, например, есть множество приложений, которые распознают вашу активность на основе анализа данных акселерометра вашего телефона.
SaiBot
Это интересно! Как ты делаешь это?
Николь Оригами Фокс
1
Я думаю, что есть много разных способов. Один из способов - дать пользователям возможность генерировать учебные данные, помечая их деятельность. Как только вы это сделаете, вы можете сократить свои временные ряды с (перекрывающимися) интервалами (например, 3 секунды) и обучить модели машинного обучения. После этого вы сможете классифицировать немаркированные действия.
SaiBot
Спасибо, Сайбот. Я вижу, я должен рассмотреть комбинацию различных инструментов чаще :)
Николь Оригами Фокс
11

Самый простой способ ответить на ваш вопрос - это понять, что примерно наборы данных часто классифицируются как поперечные , временные ряды и панели . Поперечная регрессия - это инструмент перехода к наборам поперечных данных. Это то, что большинство людей знают и называют термином регрессия . Регрессия временных рядов иногда применяется к временным рядам, но анализ временных рядов имеет широкий спектр инструментов, помимо регрессии.

(Икс1,Y1),(Икс2,Y3),...,(ИксN,YN)Икся,YяY~ИксY^Икс

введите описание изображения здесь

Если выборка не была случайной, то регрессия может вообще не работать. Например, вы выбрали только девочек в первом классе, чтобы оценить модель, но вы должны предсказать рост 12-летнего мужчины. Таким образом, регрессия имеет свои проблемы даже в настройках поперечного сечения.

ИксT,YT(Икс1,Y1),(Икс2,Y3),...,(ИксN,YN)TИкс,Y

введите описание изображения здесь

T

Третий типичный набор данных представляет собой панель, в частности, данные с продольными данными. Здесь вы можете получить несколько снимков переменных веса и роста для нескольких учеников. Этот набор данных может выглядеть как волны поперечных сечений или набор временных рядов.

введите описание изображения здесь

Естественно, это может быть более сложным, чем предыдущие два типа. Здесь мы используем регрессию панели и другие специальные методы, разработанные для панелей.

Подводя итог, можно сказать, что причина, по которой регрессия временных рядов рассматривается в качестве отдельного инструмента по сравнению с регрессией поперечного сечения, заключается в том, что временные ряды представляют собой уникальные проблемы, когда речь идет о допущениях независимости метода регрессии. В частности, из-за того факта, что в отличие от анализа поперечного сечения порядок наблюдений имеет значение, он обычно приводит ко всем видам структур корреляции и зависимости, которые иногда могут сделать недействительным применение методов регрессии. Вы должны иметь дело с зависимостью, и это именно то, в чем хорош анализ временных рядов.

Предсказуемость цен на активы

Кроме того, вы повторяете распространенное заблуждение относительно фондовых рынков и цен на активы в целом, что их нельзя предсказать. Это утверждение слишком общее, чтобы быть правдой. Это правда, что вы не можете прямо предсказать следующий тик AAPL надежно. Однако это очень узкая проблема. Если вы расширите свою сеть, вы обнаружите множество возможностей заработать деньги, используя все виды прогнозирования (и особенно анализ временных рядов). Статистический арбитраж является одной из таких областей.

Теперь, причина, по которой цены активов трудно прогнозировать в ближайшей перспективе, связана с тем фактом, что значительным компонентом изменения цен является новая информация. По-настоящему новую информацию, которая не может быть реально разработана из прошлого, по определению невозможно предсказать. Однако это идеализированная модель, и многие люди утверждают, что существуют аномалии, которые допускают сохранение состояния. Это означает, что часть изменения цены может быть объяснена прошлым. В таких случаях анализ временных рядов вполне уместен, поскольку он точно связан с постоянством. Он отделяет новое от старого, новое предсказать невозможно, но старое перетаскивается из прошлого в будущее. Если вы можете объяснить хоть немного, в финансах это означает, что вы можетебыть в состоянии заработать деньги. Пока цена стратегии, построенной на таком прогнозе, покрывает генерируемый им доход.

Наконец, взгляните на приз «Нобелевская экономика» за 2013 год : «вполне возможно предвидеть широкий курс этих цен в течение более длительных периодов, таких как следующие три-пять лет». Взгляните на нобелевскую лекцию Шиллера , он обсуждает прогнозируемость цен на активы.

Аксакал
источник
6

Анализ временных рядов также может способствовать эффективному обнаружению аномалий или выбросов во временных данных.

Например, можно подобрать модель ARIMA и рассчитать интервал прогноза. В зависимости от варианта использования интервал может использоваться для установки порога, в пределах которого можно сказать, что процесс находится под контролем; если новые данные выходят за пределы порога, они помечаются для дальнейшего внимания.

В этом блоге содержится краткий и широкий обзор анализа временных рядов для обнаружения выбросов. Для более глубокого рассмотрения исследователи на ebay объясняют, как они выполняли обнаружение аномалий в масштабе на основе статистического анализа данных временных рядов.

redhqs
источник
6

Существует множество других статистических методов, таких как регрессия и машинное обучение, которые имеют очевидные варианты использования: регрессия может предоставить информацию о взаимосвязи между двумя переменными, в то время как машинное обучение отлично подходит для прогнозирования.

Вы отвечаете на свой вопрос ниже: автокорреляция. Временные ряды обычно имеют это, нарушая предположение об основной регрессии МНК. Методы временных рядов имеют соответствующие предположения для временных рядов.

Методы машинного обучения, которые работают с последовательными данными, являются специализированными, такими как рекуррентные нейронные сети (RNN) или 1-D сверточные нейронные сети (CNN), поэтому у вас все еще есть специализированные методы для временных рядов.

Но пока я не вижу, для чего нужен анализ временных рядов. Конечно, я могу приспособить модель ARIMA и использовать ее для прогнозирования, но что хорошего в том, что доверительные интервалы для этого прогноза будут огромными? Есть причина, по которой никто не может предсказать фондовый рынок, несмотря на то, что он является самой управляемой данными отраслью в мировой истории.

Доверительные интервалы (КИ), полученные в результате использования метода временных рядов, вероятно, будут больше, чем интервалы регрессии, не относящиеся к временным рядам. Эта функция известна как точная. В целом, когда вы используете регрессию без временных рядов, ваш CI будет меньше, но это неверно, потому что вы нарушили его предположения. Если все, что вы хотите сделать, это представить график с маленькими КИ, составьте их или пропустите КИ полностью, но если вы хотите, чтобы соответствующие КИ использовали соответствующие методы.

Фондовый рынок трудно предсказать из-за его природы. Другие временные ряды гораздо более предсказуемы. Попробуйте использовать свою технику машинного обучения по выбору на фондовом рынке, и я сомневаюсь, что у вас будет больше успеха.

Кроме того, как я могу использовать его, чтобы понять мой процесс дальше? Конечно, я могу построить ACF и сказать «ага! Какая-то зависимость!», Но что тогда? В чем смысл? Конечно, есть зависимость, поэтому вы начинаете анализ временных рядов. Вы уже знали, что была зависимость. Но для чего вы собираетесь его использовать?

Предсказывать. Чтобы увидеть сезонность. Иметь представление об изменчивости данных за разные сезоны. Не говоря уже о том, что существуют более мощные методы временных рядов, чем ARIMA старой школы, такие как методы State Space. ARIMA не самая лучшая техника для моделирования временных рядов. (На самом деле процедура ARIMA в выбранном вами статистическом программном обеспечении, вероятно, использует представление State Space под капотом.)

Wayne
источник
5

Чтобы добавить цвета к ответу об обнаружении аномалий с помощью redhqs, на работе я создаю модели обнаружения аномалий для операционных показателей, таких как продажи и потоки трафика. Мы проводим анализ временных рядов, чтобы понять, какими должны быть продажи, если все работает, как ожидалось, а затем сравнить их с наблюдаемыми значениями, чтобы увидеть, не сломан ли веб-сайт. Это важно, потому что за каждую минуту, когда сайт не работает, мы теряем много денег.

Есть разные методы, которые вы можете использовать, и разные методы во многих случаях пытаются выполнить разные задачи. Например, основной статистический метод, который я использовал для обнаружения аномалий продаж, называется «STL» (разложение по сезонным трендам с использованием лесса). Это отделяет обычную сезонность, тренд и случайный шум. Мы на самом деле используем это для определения ежедневных и еженедельных сезонностей. Затем мы выбрасываем шум и объединяем тренд / сезонность для оценки ожидаемых продаж. Поэтому в нашем случае мы используем подход, чтобы понять, как продажи меняются со временем дня и времени недели, и исключить случайный шум из оценок.

Вилли Уилер
источник
Похоже, что вы строите модели временных рядов, которые не предполагают никаких аномалий, поэтому могут не быть устойчивыми, в отличие от стратегий идентификации моделей, которые явно позволяют одновременно идентифицировать как элемент SARIMA, так и ожидающую обнаружение структуру вмешательства (импульсы, сдвиги уровня / шага). , сезонные импульсы, местные тренды времени)
IrishStat
Алгоритм STL имеет флаг устойчивости (он контролирует количество итераций цикла сглаживания). В любом случае, это очень хорошо работает для наших временных рядов.
Вилли Уилер
Количество итераций не учитывает смещение в модельной форме, если существует детерминированная структура, ожидающая своего открытия.
IrishStat
3

В дополнение к превосходным ответам, предоставленным другими, я хотел бы прокомментировать, как анализ временных рядов используется в электротехнике.

Большая часть электротехники состоит из модулирующих напряжений и токов для передачи информации или использования датчиков для преобразования физического сигнала (такого как звуковая волна) в электрическую форму, по которой компьютер должен принять решение. Аналого-цифровой (АЦП) преобразователь преобразует эти сигналы в набор равномерно распределенных (по времени) дискретных выборок или временных рядов! Методы анализа временных рядов являются основой практически всех современных алгоритмов обработки сигналов.

Например, обработка речи состоит из использования микрофона для преобразования звуковой волны в электрическое напряжение, которое дискретизируется с помощью A / D, после чего создается модель временного ряда сигнала. Например, кодеры с линейным предсказанием (LPC) в сотовых телефонах создают модель ARMA произносимых слов и передают модельные коэффициенты (вместе с индексом, представляющим сигнал возбуждения из предварительно определенного словаря) вместо самих выборок данных для достижения Сжатие данных.

Роберт Л.
источник