На какие проблемы следует обращать внимание при объединении нескольких временных рядов?

10

Скажем, у меня есть ряд временных рядов, например, ряд записей температуры с разных станций в регионе. Я хочу получить единый температурный рекорд для всего региона, с помощью которого я мог бы описать аспекты регионального климата. Интуитивный подход может заключаться в том, чтобы просто брать среднее значение по всем станциям на каждом временном шаге, но мое статистическое чувство паука (с которым я определенно еще не очень хорошо знаком) говорит мне, что это может быть не так просто. В частности, я предполагаю, что усреднение по всему региону удалит некоторые интересные экстремальные температуры, и у меня могут возникнуть проблемы с зависимостью между близкими станциями.

С какими еще проблемами я мог бы столкнуться, если бы попробовал подобную стратегию, и есть ли способы их преодоления или более разумные способы объединения данных такого типа?

Примечание. Ответы могут быть более общими, чем приведенный мною пространственный пример.

naught101
источник
1
Проблема может заключаться в вашем конфликте между «одной температурной записью для всего региона» и вашим интересом к внутрирегиональным изменениям. Решение может включать некоторый способ согласования этих двух проблем, например, разделение дисперсии на внутрирегиональные и межрегиональные компоненты.
Питер Эллис
@PeterEllis, да, я смутно думал об этом. Для целей вопроса, давайте предположим, что меня не волнует внутрирегиональная пространственная изменчивость.
naught101
в этом случае я думаю, что главное, о чем вам нужно беспокоиться, это зависимость между близкими станциями. Найдите способ умерить наблюдения, которые эффективно дублируют станцию ​​по соседству, и все будет в порядке.
Питер Эллис
@PeterEllis: хорошо, но не может быть разумного физического способа сделать это - близость станций не обязательно означает, что они более зависимы - т.е. две близкие станции на противоположных сторонах горного хребта могут быть менее похожими, чем две отдаленные станции на широкой равнине. Есть ли надежный способ определить зависимость статистически? Ковариантность, я полагаю ... Вероятно, в полученном ряду все еще будет меньше пиков (я думаю, это отражает физическую ситуацию - временные изменения в широкой области, вероятно, будут медленнее и устойчивее, чем в одном месте).
naught101
@nought, относительно пространственного аспекта вашего вопроса, как определяются ваши регионы? В своем комментарии вы упоминаете, что две близкие станции на противоположных сторонах горы могут отличаться от двух отдаленных станций на широкой равнине. Рассматривали ли вы переопределение регионов станций на основе близости и сходства для вашего анализа? Они не обязательно должны соответствовать обычным региональным границам. Вместо этого они могут стать аналитическим наложением, которое можно нанести на традиционную карту.
Дав

Ответы:

1

Во-первых, я хотел бы сказать, что я буду добавлять комментарий, но я пока не могу этого сделать (респ), но мне нравится вопрос и я хочу принять участие, так что вот «ответ». Также я вижу, что это старо, но интересно.

Во-первых, можно ли использовать метод уменьшения размеров, такой как PCA, для сжатия временных рядов? Если первое собственное значение велико, возможно, это означает, что использование вами собственного вектора будет представлять большую часть динамики.

Во-вторых, и в целом, как вы предпочитаете использовать временные ряды? Не зная многого другого, я бы предположил, что температура может немного отличаться. Например, если некоторые температурные рекорды находятся вблизи городов, вы можете получить эффект типа «острова тепла». Или, возможно, небольшое изменение бокового расстояния приводит к значительному изменению вертикального расстояния - одно местоположение может быть на уровне моря и прямо на берегу океана, а другое - не «слишком далеко», а на высоте в километр. У них определенно будут разные температуры!

Это всего лишь некоторые мысли. Может быть, кто-то еще может прыгнуть и дать лучший ответ.

rbatt
источник
1
Хорошая точка зрения. Честно говоря, я не могу вспомнить, каким был контекст вокруг этого вопроса, и у меня есть ощущение, что мои комментарии вводили в заблуждение. Я был особенно заинтересован в том, чтобы не потерять изменчивость, общую для всех станций, но не в фазе. Подумайте о станциях по всему континенту и о холодном фронте. Простое среднее пространственное значение может в основном убрать холодный фронт, что не очень хорошо, поскольку каждая станция будет демонстрировать его сильно, но в разное время. Возможно, запуск какого-либо PCA на каждой станции и последующее усреднение результатов может быть способом обойти это.
naught101
О, хорошо, поэтому, если вы пытаетесь охарактеризовать тенденцию во временных рядах по региону, возможно, вы должны сделать временной ряд стационарным, и каждый из них имеет среднее значение 0. Вы также можете попытаться удалить дневной цикл из каждый (или просто взять среднесуточные). Тогда у вас останутся низкочастотные изменения температуры, каждое из которых будет сосредоточено вокруг среднего значения 0. Как только вы это сделаете, возможно, вы могли бы сжать центрированные + стационарные временные ряды, используя некоторую технику уменьшения размеров, такую ​​как PCA. Я рад, что вы немного поговорили о контексте вопроса, потому что это действительно помогает. Хорошая вещь!
rbatt