Какая статистика сохраняется при агрегировании?

12

Если у нас есть длинные временные ряды с высоким разрешением и большим количеством шума, часто имеет смысл объединять данные в более низкое разрешение (скажем, ежедневные или ежемесячные значения), чтобы лучше понять, что происходит, эффективно удаляя некоторые из шум.

Я видел по крайней мере одну статью, которая затем применяет некоторую статистику к агрегированным данным, включая для линейной регрессии по отдельной переменной. Это действительно? Я бы подумал, что процесс усреднения немного изменит результат из-за уменьшенного шума.r2

В целом, можно ли применить некоторые статистические данные к агрегированным данным временных рядов, а другие нет? Если да, то какие? Может быть, это линейные комбинации?

naught101
источник
Связанный, см. Экологическую ошибку .
Энди W
1
Что касается комментария от @cbeleites, я думаю, что здесь есть теоретический ответ - расширение вашего предположения о сохранении линейных комбинаций. Однако, с точки зрения практического применения, очень сложно сделать общий вывод о обоснованности подхода, и должен быть конкретный пример.
Джонатан

Ответы:

6

Я думаю, что вопрос в заголовке слишком широкий, чтобы на него можно было дать полезный ответ, тем более что он, вероятно, будет зависеть как от метода агрегирования, так и от рассматриваемой статистики.

  • Это относится даже к «среднему значению»: пытаетесь ли вы сохранить форму и интенсивность сигнала (например, фильтры Савицкого-Голея) или пытаетесь сохранить область под сигналом (например, лесс)?

  • Статистика, связанная с шумом, очевидно, затронута: это обычно является целью агрегации.

Я видел по крайней мере один документ, который затем применяет некоторую статистику к агрегированным данным [...] Это верно? Я бы подумал, что процесс усреднения немного изменит результат из-за уменьшенного шума.

Эта модификация, скорее всего, является целью агрегирования.

В общем, вам разрешено многое делать с вашими данными, но вам нужно

  • скажите, что вы делаете (и желательно также, почему вы это делаете)
  • показать качество полученной модели (тест с независимыми данными)


n

cbeleites недоволен SX
источник
5

YtXτm

Yt=α+βX¯t+ut,(1)

X¯t=1mh=0m1Xtmh.

tX30(t1)+1,...,X30t

Yt=α+βX¯t(w)+ut,(2)

с

Xt(w)=h=1m1whXtmh.

whwh=g(h,α)gα

wh=1m

В нерегрессионном параметре есть результаты, которые показывают, что агрегация может изменять свойства временного ряда. Например, если вы агрегируете процессы AR (1), которые имеют кратковременную память (корреляция между двумя наблюдениями временных рядов быстро исчезает при увеличении расстояния между ними), вы можете получить процесс с долговременной памятью.

Таким образом, чтобы подвести итог, ответ заключается в том, что обоснованность применения статистики на агрегированных данных является статистическим вопросом. В зависимости от модели вы можете построить гипотезу, является ли она действительным приложением или нет.

mpiktas
источник