Как заполнить недостающие данные во временных рядах?

16

У меня есть большой набор данных о загрязнении, который регистрируется каждые 10 минут в течение двух лет, однако в этих данных есть ряд пробелов (в том числе некоторые, которые проводятся по несколько недель за раз).

Данные кажутся довольно сезонными, и в течение дня наблюдаются большие различия по сравнению с ночью, когда значения не сильно отличаются, а точки данных ниже.

Я рассмотрел подгонку модели Лёсса к подмножествам дневного и ночного времени по отдельности (так как между ними есть очевидная разница), а затем прогнозировал значения отсутствующих данных и заполнял эти точки.

Мне было интересно, если это подходящий способ решения этой проблемы, а также если есть необходимость добавить локальные вариации в прогнозируемых точках.

Jamesm131
источник

Ответы:

21

Ответ будет зависеть от вашего дизайна исследования (например, поперечные временные ряды? Когортные временные ряды, последовательные когортные временные ряды?). Хонакер и Кинг разработали подход, который полезен для временных рядов поперечных сечений (возможно, полезных для временных рядов последовательных когорт, в зависимости от ваших предположений), включая пакет R Амелия II для вменения таких данных. Тем временем Spratt & Co. описали другой подход, который можно использовать в некоторых проектах когортных временных рядов, но он немногочислен в реализации программного обеспечения.

Поперечного сечения конструкции временных рядов (ака исследование панели дизайна) является один , в котором население (s) (ются) повторно пробы (например, каждый год), используя протокол же исследования (например, одни и те же переменные, инструменты и т.д. ). Если стратегия выборки является репрезентативной, данные такого рода дают годовую картину (одно измерение на участника или субъекта) распределения этих переменных для каждой популяции в исследовании.

Проект когортных временных рядов (так называемый дизайн повторных когорт, план продольного исследования, также иногда называемый планом группового исследования) - это тот, в котором отдельные единицы анализа отбираются один раз и отслеживаются в течение длительного периода времени. Индивидуумы могут быть отобраны репрезентативным способом из одной или нескольких групп населения. Однако репрезентативная выборка временных рядов когорт с течением времени становится все более и более слабым представителем целевой популяции (по крайней мере, в человеческой популяции) из-за того, что люди рождаются или стареют в целевой популяции, а также умирают или стареют из нее, а также с иммиграцией и эмиграцией.

Дизайн серийных когорт временных рядов (он же повторил, мульти- и несколько когорт, или панель дизайн исследование) является один , в котором население (s) (ется) повторно пробами (например, каждый год), используя протокол же исследования ( например, одни и те же переменные, инструменты и т. д.), который измеряет отдельные единицы анализа в популяции в двух точках времени в течение периода (например, в течение года) с целью создания показателей скорости изменения. Если стратегия выборки является репрезентативной, данные такого рода дают годовую картину темпов изменения этих переменных для каждой популяции в исследовании.

Ссылки
Honaker, J. и King, G. (2010). Что делать с отсутствующими значениями в данных поперечного сечения временных рядов . Американский журнал политических наук , 54 (2): 561–581.

Spratt, M., Carpenter, J., Sterne, JAC, Carlin, JB, Heron, J., Henderson, J., and Tilling, K. (2010). Стратегии множественного вменения в продольных исследованиях . Американский журнал эпидемиологии , 172 (4): 478–4876.

Alexis
источник
Спасибо за ваш ответ. Мне было просто интересно, могли бы вы определить различные типы временных рядов (когорты, поперечные сечения и т. Д.), Поскольку я относительно новичок в этом типе исследований и не сталкивался с этими терминами раньше.
Jamesm131
@ Jamesm131 Смотрите мой отредактированный ответ.
Алексис
7

Вы можете использовать пакет imputeTS в R. Я полагаю, что данные, над которыми вы работаете, представляют собой разные временные ряды. Пакет imputeTS специализируется на (одномерном) вменении временных рядов. Он предлагает несколько различных реализаций алгоритма вменения. Помимо алгоритмов вменения, пакет также предоставляет функции построения и печати статистики отсутствующих данных. Ну, я рекомендую вам взглянуть на модели состояний пространства для пропущенных значений. Этот пакет должен помочь вам в вашем анализе.

GD_N
источник