Обычно мы используем PCA как метод уменьшения размерности для данных, где предполагается, что случаи
Вопрос: Каковы типичные нюансы в применении PCA для зависимых, неидеальных данных? Какие полезные / полезные свойства PCA для данных iid скомпрометированы (или полностью потеряны)?
Например, данные могут быть многомерным временным рядом, и в этом случае можно ожидать автокорреляции или авторегрессионной условной гетероскедастичности (ARCH).
Ранее было задано несколько связанных вопросов о применении PCA к данным временных рядов, например, 1 , 2 , 3 , 4 , но я ищу более общий и исчерпывающий ответ (без необходимости подробно останавливаться на каждом отдельном пункте).
Редактировать: Как отмечает @ttnphns, сам PCA не является логическим анализом. Тем не менее, кто-то может быть заинтересован в обобщении производительности PCA, то есть сосредоточиться на популяции аналог выборки PCA. Например, как написано в Надлер (2008) :
Предполагая, что данные представляют собой конечную и случайную выборку из (обычно неизвестного) распределения, интересным теоретическим и практическим вопросом является связь между результатами выборки PCA, вычисленными по конечным данным, и результатами базовой модели населения.
Ссылки:
- Надлер, Вооз. «Результаты аппроксимации конечной выборки для анализа главных компонент: матричный подход к возмущению». Летопись статистики (2008): 2791-2817.
источник
Ответы:
Предположительно, вы могли бы добавить временную составляющую в качестве дополнительной функции к выбранным точкам, и теперь они iid? В основном исходные точки данных являются условными по времени:
Но если мы определим , то имеем:Икс'я= { хя, тя}
... и образцы данных теперь взаимно независимы.
На практике, путем включения времени в качестве элемента в каждую точку данных, PCA может иметь в результате то, что один компонент просто указывает вдоль оси объекта времени. Но если какие-либо функции связаны с функцией времени, компонент может состоять из одной или нескольких из этих функций, а также функции времени.
источник