Я пытаюсь применить временной ряд к ежеквартальным данным выборки (биомасса животных) за 10-летний период с 3 повторениями в квартал. Итак, 40 дат, но всего 120 наблюдений.
Я прочитал до SARIMA'а в Shumway и Stoffer's Анализ временных рядов и его приложений, а также просмотрел Woodward, et. Прикладной анализ временных рядов, и я понимаю, что каждая модель основана на одном наблюдении в каждой точке временного ряда.
ВОПРОС: Как я могу включить вариации в каждое наблюдение в моей модели? Я мог бы построить серию на основе, но я потерял бы вариации при каждом наблюдении, и я думаю, что это имеет решающее значение для моего понимания происходящего.
Ответы:
В зависимости от того, что именно вы подразумеваете под «3 повторения в квартал», может иметь смысл модель панельных данных ( википедия ). Это будет означать, что вы проводите три измерения за квартал, по одному от каждого из трех разных источников, которые остаются неизменными с течением времени. Ваши данные будут выглядеть примерно так:
Если это то, на что вы смотрите, есть ряд моделей для работы с данными панели. Вот достойная презентация, которая охватывает некоторые из основных R, которые вы бы использовали для просмотра данных панели. Этот документ углубляется, хотя и с точки зрения эконометрики.
Однако, если ваши данные не совсем соответствуют методологиям панельных данных, есть другие инструменты, доступные для «объединенных данных». Определение из этой статьи (pdf) :
Как вы можете видеть из этого определения, методы, которые вы собираетесь использовать, будут зависеть от того, что именно вы ожидаете узнать из ваших данных.
Если бы я предложил вам место для начала, предполагая, что ваши три ничьи для каждого квартала согласованы с течением времени, я бы сказал, начните с использования оценщика с фиксированными эффектами (также известного как внутриоценочный оценщик) с панельной моделью данных вашего данные.
Для моего примера выше, код будет выглядеть примерно так:
Что дает нам следующий результат:
Здесь мы можем ясно увидеть влияние времени в коэффициенте на переменную четверти, а также влияние нахождения в группе B или группе C (в отличие от группы A).
Надеюсь, что это указывает вам куда-то в правильном направлении.
источник
Я думаю, что это интересно. Мое предложение состояло бы в том, чтобы усреднить три точки данных, чтобы получить гладкий временной ряд, чтобы соответствовать. Как вы указываете, если вы делаете это, игнорируя, что вы взяли в среднем три наблюдения, которые вы выбрасываете информацию. Но для каждого момента времени вы можете суммировать квадратичные отклонения от среднего. Объедините эти суммы квадратов за все периоды времени и разделите на n-1, где n - общее количество точек, использованных в расчете. Если у вас есть модель со структурой временного ряда (например, тренды, сезонный компонент, структура зависимости AR), этот расчет может быть независимой и беспристрастной оценкой дисперсии члена ошибки в модели.
источник