Стоит ли моделировать короткие временные ряды?

14

Вот некоторый контекст. Я заинтересован в определении того, как две переменные среды (температура, уровни питательных веществ) влияют на среднее значение переменной отклика за 11-летний период. В течение каждого года есть данные из более чем 100 тысяч мест.

Цель состоит в том, чтобы определить, отразилось ли в течение 11-летнего периода среднее значение переменных отклика на изменениях переменных среды (например, более высокая температура + больше питательных веществ = больший отклик).

К сожалению, поскольку ответом является среднее значение (без учета среднего значения, только регулярные межгодовые колебания затопят сигнал), регрессия составит 11 точек данных (1 среднее значение в год) с 2 пояснительными переменными. Для меня даже линейную положительную регрессию будет трудно считать значимой, учитывая, что набор данных настолько мал (даже не соответствует номинальным 40 точкам / переменной, если только отношение не является сверхсильным).

Правильно ли я сделать это предположение? Может ли кто-нибудь предложить какие-либо другие мысли / перспективы, которые я могу упустить?

PS: некоторые предостережения: невозможно получить больше данных, не дожидаясь дополнительных лет. Таким образом, доступные данные - это то, с чем нам действительно нужно работать.

майазаура
источник
Вы пытались построить данные? Я бы сказал, что сила корреляции между вашими переменными среды и вашей переменной отклика повлияет на ответ.
rm999
« В течение каждого года есть данные из более чем 100 тысяч местоположений. » Вы действительно наблюдаете все местоположения или только среднее значение, основанное на них? Если да, то вы можете пойти на панели моделей данных, как @crayola предложил в линейном контексте. Хотя некоторые специальные экологические модели, как упомянул @GaBorgulya, могут потребовать гораздо меньше информации для калибровки параметров, чем для оценки.
Дмитрий Челов

Ответы:

8

Небольшое количество точек данных ограничивает типы моделей, которые вы можете разместить на своих данных. Однако это не обязательно означает, что начинать моделирование не имеет смысла. С небольшим количеством данных вы сможете обнаружить ассоциации только в том случае, если эффекты сильные, а разброс слабый.

Другой вопрос, какая модель подходит для ваших данных. Вы использовали слово «регрессия» в названии. Модель должна в какой-то степени отражать то, что вы знаете о явлении. Кажется, это экологическая обстановка, поэтому предыдущий год также может оказать влияние.

GaBorgulya
источник
4

Я видел наборы экологических данных с менее чем 11 точками, поэтому я бы сказал, что если вы будете очень осторожны, вы можете сделать некоторые ограниченные выводы с вашими ограниченными данными.

Вы также можете провести анализ мощности, чтобы определить, насколько мал эффект вы можете обнаружить, учитывая параметры вашего экспериментального плана.

Вам также может не потребоваться выбрасывать дополнительные вариации в год, если вы проведете тщательный анализ

Zach
источник
4
Будьте осторожны с наблюдаемой силой: nottinghamtrent.academia.edu/ThomBaguley/Papers/212458/…
GaBorgulya
4

Основное моделирование данных (особенно для временных рядов) предполагает, что вы собрали данные с достаточной частотой, чтобы охватить интересующие вас явления. Простейший пример для синусоидальной волны - если вы собираете данные с частотой n * pi, где n - целое число, то вы не увидите ничего, кроме нулей, и пропустите синусоидальный паттерн в целом. Есть статьи по теории выборки, в которых обсуждается, как часто следует собирать данные.


источник
3

Я не уверен, что понимаю этот бит: «К сожалению, поскольку ответ является средним значением (без учета среднего значения, только регулярные межгодовые колебания затопят сигнал)»

С осторожным моделированием, мне кажется, вы могли бы многого добиться, моделируя это как данные панели. В зависимости от пространственного охвата ваших данных, могут быть большие различия в температурах, которым ваши точки данных подвергались в течение любого данного года. Усреднение всех этих вариаций кажется дорогостоящим.

Crayola
источник
3

Я бы сказал, что достоверность теста связана не столько с количеством точек данных, сколько с достоверностью предположения о том, что у вас правильная модель.

Например, регрессионный анализ, который используется для генерации стандартной кривой, может основываться только на 3 стандартах (низкий, средний и высокий), но результат является весьма достоверным, поскольку имеются убедительные доказательства того, что ответ является линейным между точками.

С другой стороны, даже регрессия с тысячами точек данных будет ошибочной, если к данным будет применена неправильная модель.

В первом случае любое отклонение между предсказаниями модели и фактическими данными обусловлено случайной ошибкой. Во втором случае некоторые различия между предсказаниями модели и фактическими данными вызваны смещением при выборе неправильной модели.

DQdlM
источник
1

Требуемое количество наблюдений для идентификации модели зависит от отношения сигнал-шум в данных и от формы модели. Если мне дадут числа 1,2,3,4,5, я прогнозирую 6,7,8, .... Идентификация модели Бокса-Дженкинса - это подход к определению базового общего термина, очень похожий на тест для " численный интеллект ", который мы даем детям. Если сигнал сильный, то нам нужно меньше наблюдений и наоборот. Если наблюдаемая частота предполагает возможную «сезонную структуру», то для извлечения нам необходимо повторение этого явления, например, по крайней мере, 3 сезона (предпочтительно больше) (определите это по базовой описательной статистике (acf / pacf).

IrishStat
источник
-1

Возможно, вы можете попытаться обработать свой временной ряд как систему линейных уравнений и решить ее путем исключения Гаусса. Конечно, в этом случае вы ограничиваете себя доступными данными, но это единственная цена, которую вы должны заплатить.


источник