Если у нас есть длинные временные ряды с высоким разрешением и большим количеством шума, часто имеет смысл объединять данные в более низкое разрешение (скажем, ежедневные или ежемесячные значения), чтобы лучше понять, что происходит, эффективно удаляя некоторые из шум.
Я видел по крайней мере одну статью, которая затем применяет некоторую статистику к агрегированным данным, включая для линейной регрессии по отдельной переменной. Это действительно? Я бы подумал, что процесс усреднения немного изменит результат из-за уменьшенного шума.
В целом, можно ли применить некоторые статистические данные к агрегированным данным временных рядов, а другие нет? Если да, то какие? Может быть, это линейные комбинации?
time-series
aggregation
naught101
источник
источник
Ответы:
Я думаю, что вопрос в заголовке слишком широкий, чтобы на него можно было дать полезный ответ, тем более что он, вероятно, будет зависеть как от метода агрегирования, так и от рассматриваемой статистики.
Это относится даже к «среднему значению»: пытаетесь ли вы сохранить форму и интенсивность сигнала (например, фильтры Савицкого-Голея) или пытаетесь сохранить область под сигналом (например, лесс)?
Статистика, связанная с шумом, очевидно, затронута: это обычно является целью агрегации.
Эта модификация, скорее всего, является целью агрегирования.
В общем, вам разрешено многое делать с вашими данными, но вам нужно
источник
с
В нерегрессионном параметре есть результаты, которые показывают, что агрегация может изменять свойства временного ряда. Например, если вы агрегируете процессы AR (1), которые имеют кратковременную память (корреляция между двумя наблюдениями временных рядов быстро исчезает при увеличении расстояния между ними), вы можете получить процесс с долговременной памятью.
Таким образом, чтобы подвести итог, ответ заключается в том, что обоснованность применения статистики на агрегированных данных является статистическим вопросом. В зависимости от модели вы можете построить гипотезу, является ли она действительным приложением или нет.
источник