Что делает PCA с автокоррелированными данными?

9

Просто потому, что какой-то корреспондент задал интересный вопрос о методах вычисления автокорреляции, я начал играть с ним, почти не зная о временных рядах и автокорреляции.

Корреспондент упорядочил свои данные ( точки данных временного ряда), сдвинутые на одну временную задержку каждая, кроме того, чтобы у него была матрица из данных (как я его понял), где первая строка - исходные данные, вторая строка данные сдвинуты на единицу времени, следующая строка - на другую и т. д. Я понял это дополнительно, приклеив конец к хвосту, создавая "круглые" наборы данных.32 × 32 13232×321

Затем, просто чтобы посмотреть, что из этого получится, я вычислил матрицу корреляции и, следовательно, основные компоненты. Удивительно, но я получил изображение частотного разложения и (опять же с другими данными) одной частоты, скажем, что с одним периодом в данных был первый главный компонент, а с четырьмя периодами был второй ПК и так далее. (Я получил "соответствующих" компьютеров с собственным значением6 > 1326>1). Сначала я думал, что это зависит от входных данных, но теперь я предполагаю, что это систематически, благодаря особой конструкции набора данных с его круговыми сдвигами (также известной как матрица "Теплица"). Вращения PC-решения для варимакса или других критериев вращения дали несколько иные, и, возможно, интересные результаты, но в целом, похоже, обеспечивают такое частотное разложение.

Вот ссылка на фотографии, которые я сделал из набора из точек; Кривые просто сделаны из нагрузок факторной матрицы: одна кривая нагрузки на один фактор. Кривая первого ПК1 должна показывать самые высокие амплитуды (примерно потому, что она имеет наибольшую сумму квадратов нагрузки)32

Вопросов:

  • Q1: это особенность по дизайну? (PCA с этим типом набора данных)
  • Q2: действительно ли этот подход может быть использован для серьезного подхода к анализу частот / длин волн?

[обновление] вот набор данных (надеюсь, он получится копируемым для вас)

-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4
-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5
-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3
0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1
2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0
4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2
6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4
5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6
3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5
1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3
1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1
0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1
-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0
-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2
-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3
0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1
3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0
5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3
7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5
6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7
7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6
5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7
4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5
3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4
2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3
3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2
5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3
4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5
3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4
2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3
3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2
4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3
Готфрид Хелмс
источник
Спасибо @amoeba и за редактирование. Я видел только две ошибки, которые хотел отредактировать позже, теперь вопрос выглядит намного лучше!
Готфрид Хелмс

Ответы:

4

Позвольте мне преобразовать мой предыдущий комментарий в ответ.

n=32

n=321n×n

Не знаю, может ли это быть полезным (Q2). По моему опыту, это выглядит как раздражающий артефакт. Т.е. у людей есть какие-то данные, они получают что-то, похожее на моды Фурье, из PCA и начинают задаваться вопросом, что они могут означать, тогда как они просто вызваны некоторыми временными сдвигами в исходных временных рядах.

амеба
источник
Ну очень приятно, спасибо! Да, я думал, что данные вдоль строк. Вопрос 2 приходит еще и потому, что до сегодняшнего дня я никогда не понимал, как именно работает анализ Фурье - и случайно это могло быть одним из шагов для получения некоторой интуиции (но эта смутная надежда действительно кажется здесь бесплодной ...)
Готфрид Хелмс
Кстати, не могли бы вы поделиться своими 32-значными временными рядами? Я хотел бы вставить рисунок, показывающий матрицу Грамма, и я мог бы сделать это непосредственно с вашими данными.
амеба
Вы видели ссылку в моем вопросе? Он перенаправляет на веб-страницу, которую я создал с помощью exce.l. Она имеет 4 или 5 подстраниц, которые можно выбрать с помощью «firefox» в моей установке с помощью клика на панели вкладок внизу экрана. Первая подстраница показывает список данных. Однако по вертикали: нужно взять его в качестве первой строки в новой таблице и добавить 31 строку во время цикла справа. Если это неудобно, я также могу добавить данные в мой вопрос ...
Готфрид Хелмс
Ого, я не поняла, что это была целая электронная таблица, а не просто скриншот! Спасибо.
амеба