Каждое наблюдение в моих данных было собрано с разницей в 0,1 секунды. Я не называю это временным рядом, потому что у него нет даты и времени. В примерах алгоритмов кластеризации (я нашел онлайн) и PCA данные выборки имеют 1 наблюдение на случай и не рассчитаны по времени. Но мои данные содержат сотни наблюдений, собираемых каждые 0,1 секунды на одно транспортное средство, и есть много транспортных средств.
Примечание: я также задавал этот вопрос по кворе.
algorithms
Умайр Дуррани
источник
источник
Ответы:
То, что у вас есть, - это последовательность событий в зависимости от времени, поэтому не стесняйтесь называть ее временными рядами!
Кластеризация во временных рядах имеет 2 различных значения:
Я предполагаю, что вы имеете в виду второе, и вот мое предложение:
У вас много транспортных средств и много наблюдений на одно транспортное средство, т.е. у вас много транспортных средств. Таким образом, у вас есть несколько матриц (каждая машина является матрицей), и каждая матрица содержит N строк (Nr наблюдений) и T столбцов (точек времени). Одним из предложений может быть применение PCA к каждой матрице, чтобы уменьшить размерность и данные наблюдений в пространстве ПК и посмотреть, есть ли значимые связи между различными наблюдениями в матрице (транспортном средстве) . Затем вы можете поместить каждое наблюдение для всех транспортных средств друг на друга, составить матрицу и применить к ней PCA, чтобы увидеть взаимосвязи одного наблюдения между различными транспортными средствами.
Если у вас нет отрицательных значений , настоятельно рекомендуется использовать матричную факторизацию для уменьшения размеров данных матричной формы.
Другое предложение может быть помещено во все матрицы друг на друга и построить тензор N x M x T, где N - количество транспортных средств, M - количество наблюдений, T - временная последовательность и применить Tensor Decomposition, чтобы увидеть отношения глобально.
Очень хороший подход к кластеризации временных рядов показан в этой статье, где реализация довольно проста.
Надеюсь, это помогло!
Удачи :)
РЕДАКТИРОВАТЬ
Как вы упомянули, вы имеете в виду сегментацию временных рядов, я добавляю это к ответу.
Сегментация временных рядов является единственной проблемой кластеризации, которая имеет основную правду для оценки. На самом деле вы рассматриваете распределение генерации за временными рядами и анализируете его, я настоятельно рекомендую это , это , это , это , это и это, где ваша проблема всесторонне изучена. Специально последний и кандидатская диссертация.
Удачи!
источник