Как кластеризовать временные ряды?

22

У меня вопрос по кластерному анализу. Есть 3000 компаний, которые должны быть сгруппированы в соответствии с их потреблением энергии в течение 5 лет. Каждая компания имеет значения для каждого часа в течение 5 лет. Я хотел бы выяснить, имеют ли некоторые компании одинаковую структуру в зависимости от времени использования. Результаты следует использовать для ежедневного прогнозирования энергопотребления. Если у вас есть идеи, как кластеризовать временные ряды в SPSS, поделитесь со мной.

user89686
источник
1
Я бы посоветовал вам проверить соответствующие ссылки в правой части страницы. Есть довольно много вопросов очень похожего характера, см. Можно ли провести кластеризацию временных рядов на основе формы кривой? и Моделирование продольных данных, где влияние времени варьируется в функциональной форме между людьми только для двух примеров.
Энди У,
Proc Сходство в SAS может кластеризовать временные ряды.
синоптик

Ответы:

11

А) Потратьте много времени на предварительную обработку данных. Предварительная обработка - это 90% вашей работы.

Б) Выберите подходящую меру подобия для временного ряда. Например, расстояние пересечения порога может быть хорошим выбором здесь. Вы, вероятно, не будете стремиться к динамическому расстоянию, если у вас нет других часовых поясов. Пересечение порога может быть более подходящим для обнаружения временных закономерностей, не обращая внимания на фактическую величину (которая, вероятно, будет сильно отличаться от компании к компании).

C) Кластеризовать полученную матрицу рассеяния, используя такие методы, как иерархическая кластеризация или DBSCAN, которые могут работать с произвольными функциями расстояния.

Аноним-Мусс-Восстановить Монику
источник
Можете ли вы объяснить, почему динамическое расстояние деформации не подходит для кластеризации временных рядов?
Хардик Гупта
Это не было общим утверждением. Хорошо это или нет, зависит от того, хотите ли вы разрешить изменение времени или нет.
Anony-Mousse -Восстановить Монику
7

Возможно, вы захотите взглянуть на прогнозирование часовых временных рядов с ежедневной, еженедельной и годовой периодичностьюдля обсуждения почасовых данных, включающих ежедневные данные и праздники / регрессоры. У вас есть данные за 5 лет, в то время как другое обсуждение включало 883 ежедневных значения. Я хотел бы предложить, чтобы вы могли составить почасовой прогноз, включающий такие регрессоры, как день недели; неделя года и праздничные дни с использованием ежедневных итогов в качестве дополнительного предиктора. Таким образом, у вас будет 24 модели для каждой из 3000 компаний. Теперь вам нужно по часам оценить 3000 моделей, используя общую структуру ARIMAX, учитывающую характер отклика по каждому из регрессоров, день недели, изменения дня недели параметры и недельные показатели при выделении выбросов. Тогда вы можете оценить параметры во всем мире, используя все 3000 компаний. Выполните тест чау-чау http://en.wikipedia.org/wiki/Chow_testдля постоянства параметров и при отклонении объединить компании в однородные группы. Я упоминал это как одномерный кластерный анализ. Поскольку у SPSS очень ограниченные возможности во временных рядах, вы можете поискать программное обеспечение в другом месте.

IrishStat
источник
1
«ваниль» кажется странным словом о R; не ясно на перевод в более обычной терминологии R. Любое различие между базовой R и дополнительными пакетами от CRAN на самом деле не кусает опытных пользователей или даже начинающих, так как они одинаково бесплатны и одинаково доступны. У меня сложилось впечатление, что тот, кто имел доступ к SPSS, может довольно легко сказать, что в SPSS в настоящее время что-то невозможно без программирования; чтобы сказать то же самое о R, необходимо знать все пакеты временных рядов.
Ник Кокс