Функциональный анализ главных компонентов (FPCA): что это такое?

21

Функциональный анализ главных компонентов (FPCA) - это то, на что я наткнулся и никогда не мог понять. О чем это все?

См. «Обзор функционального анализа главных компонентов», 2011 г. , и я цитирую:

PCA сталкивается с серьезными трудностями при анализе функциональных данных из-за «проклятия размерности» (Bellman 1961). «Проклятие размерности» происходит от разреженности данных в многомерном пространстве. Даже если геометрические свойства PCA остаются действительными, и даже если численные методы дают стабильные результаты, выборочная ковариационная матрица иногда является плохой оценкой ковариационной матрицы населения. Чтобы преодолеть эту трудность, FPCA предоставляет гораздо более информативный способ изучения ковариационной структуры выборки, чем PCA [...]

Я просто не понимаю Какой недостаток описывает эта статья? Разве PCA не должен быть конечным методом для обработки ситуаций, подобных «проклятию размерности»?

time-series pca dimensionality-reduction Дов
источник

7

Точно, как вы заявляете в вопросе и как @tdc указывает в своем ответе, в случае чрезвычайно больших измерений, даже если геометрические свойства PCA остаются действительными, ковариационная матрица больше не является хорошей оценкой реальной ковариации населения.

Есть очень интересная статья «Анализ функциональных главных компонентов данных fMRI» ( pdf ), где они используют функциональный PCA для визуализации дисперсии:

... Как и в других исследовательских методах, цель состоит в том, чтобы предоставить начальную оценку, которая даст данным возможность «говорить за себя», прежде чем будет выбрана подходящая модель. [...]

В статье они объясняют, как именно они это сделали, а также приводят теоретические рассуждения:

Решающим преимуществом этого подхода является возможность указания набора допущений при выборе набора базисных функций и функционала ошибки, минимизированного подгонкой. Эти допущения будут слабее, чем спецификация предопределенной гемодинамической функции и набора событий или условий, как при F-маскировании, таким образом сохраняя исследовательский характер процедуры; однако предположения могут оставаться достаточно строгими, чтобы преодолеть трудности обычного PCA.

andreister
источник

Я изо всех сил пытаюсь понять логику FPCA; Я посмотрел на бумагу, которую вы цитировали, но все еще в замешательстве. Установка заключается в том, что матрица данных имеет размер с наблюдаемыми временными рядами длины . С помощью PCA можно найти первый длинный собственный вектор ковариационной матрицы; требование состоит в том, что это будет очень шумно. Решение FPCA состоит в том, чтобы аппроксимировать каждый временной ряд с помощью базисных функций ( ), а затем выполнить PCA в пространстве базисных функций. Верный? Если да, то чем он отличается от сглаживания каждого временного ряда и последующего запуска стандартного PCA? Почему особое имя?

n \times t

$n\times t$

n

$n$

t ≫ n

$t\gg n$

t

$t$

k

$k$

k ≪ t

$k\ll t$

говорит амеба: восстанови Монику

Прочитав немного больше об этом, я решил опубликовать свой собственный ответ. Возможно, вам будет интересно. Я, безусловно, буду признателен за любые дополнительные идеи.

говорит амеба, восстанови Монику

24

Я нахожу «функциональный PCA» ненужным заблуждением. Это вовсе не отдельная вещь, это стандартная PCA, применяемая к временным рядам.

FPCA относится к ситуациям, когда каждое из наблюдений является временным рядом (т. Е. «Функцией»), наблюдаемым в временных точках, так что вся матрица данных имеет размер. Обычно , например, можно выбрать временных рядов в временных точках каждый. Смысл анализа состоит в том, чтобы найти несколько «собственных временных рядов» (также длиной ), то есть собственных векторов ковариационной матрицы, которые описывали бы «типичную» форму наблюдаемого временного ряда. $n$ $t$ $n \times t$ $t\gg n$ $20$ $1000$ $t$

Определенно можно применить стандартный PCA здесь. Видимо, в вашей цитате автор обеспокоен тем, что результирующие собственные временные ряды будут слишком шумными. Это действительно может случиться! Два очевидных способа справиться с этим: (а) сгладить результирующие собственные временные ряды после PCA, или (b) сгладить исходные временные ряды перед PCA.

Менее очевидный, более причудливый, но почти эквивалентный подход состоит в том, чтобы аппроксимировать каждый исходный временной ряд с помощью базисных функций, эффективно уменьшая размерность от до . Затем можно выполнить PCA и получить собственные временные ряды, аппроксимированные теми же базисными функциями. Это то, что обычно можно увидеть в уроках FPCA. Можно было бы использовать гладкие базисные функции (гауссианы или компоненты Фурье), так что, насколько я вижу, это по существу эквивалентно простому варианту (b), описанному выше. $k$ $t$ $k$

В учебниках по FPCA обычно идут долгие дискуссии о том, как обобщить PCA для функциональных пространств бесконечной размерности, но практическая значимость этого совершенно вне моего понимания , так как на практике функциональные данные всегда изначально дискретизируются.

Вот иллюстрация взята из Ramsay и Silverman «Функциональный анализ данных» учебник, который , как представляется, в окончательную монографии «функциональный анализ данных» , включая FPCA:

Рамсей и Сильверман, FPCA

Можно видеть, что выполнение PCA на «дискретизированных данных» (точках) дает практически то же самое, что выполнение FPCA для соответствующих функций на основе Фурье (линий). Конечно, сначала можно выполнить дискретную PCA, а затем подобрать функцию в том же базисе Фурье; это дало бы более или менее тот же результат.

PS. В этом примере что является небольшим числом с . Возможно, то, что авторы считают «функциональной PCA» в этом случае, должно привести к «функции», то есть «плавной кривой», в отличие от 12 отдельных точек. Но это может быть тривиально достигнуто путем интерполяции, а затем сглаживания результирующих собственных временных рядов. Опять же, кажется, что «функциональный PCA» - это не отдельная вещь, это просто приложение PCA. $t=12$ $n>t$

амеба говорит восстановить монику
источник

2

В случае редко нерегулярно дискретизированных траекторий (например, продольных данных) FPCA гораздо более сложен, чем « интерполяция и последующее сглаживание результирующих временных рядов ». Например, даже если кто-то каким-то образом получает некоторые собственные компоненты, вычисление баллов проекции разреженных данных не является четко определенным; см. например: Яо и соавт. JASA 2005. Предоставляется для процессов с плотной регулярной выборкой. FPCA фактически является PCA с некоторыми штрафами за гладкость сверху.

usεr11852 говорит восстановить Monic

Спасибо, @ usεr11852 (+1). Мне нужно найти время, чтобы разобраться в этом снова. Я постараюсь найти статью, на которую вы ссылались, и вернусь к этому ответу.

говорит амеба, восстанови Монику

@amoeba, все это звучит почти как дискретное преобразование Фурье, где вы восстанавливаете составляющие волны сложного волнового / временного ряда?

Рассел Ричи

9

Я работал в течение нескольких лет с Джимом Рамсей в FDA, поэтому я, возможно, могу добавить несколько пояснений к ответу @ amoeba. Я думаю, на практическом уровне, @amoeba в основном прав. По крайней мере, к такому выводу я наконец пришел после изучения FDA. Тем не менее, структура FDA дает интересное теоретическое понимание того, почему сглаживание собственных векторов - это больше, чем просто помеха. Оказывается, что оптимизация в функциональном пространстве с учетом внутреннего произведения, содержащего штраф за гладкость, дает конечномерное решение базисных сплайнов. FDA использует бесконечномерное функциональное пространство, но для анализа не требуется бесконечное количество измерений. Это как трюк с ядром в гауссовских процессах или SVM. На самом деле это очень похоже на трюк с ядром.

Первоначальная работа Рамсэя касалась ситуаций, когда основная история данных очевидна: функции более или менее линейны, или более или менее периодичны. Доминирующие собственные векторы стандартной PCA будут просто отражать общий уровень функций и линейного тренда (или синусоидальных функций), в основном говоря нам, что мы уже знаем. Интересные особенности лежат в невязках, которые теперь являются несколькими собственными векторами сверху списка. И поскольку каждый последующий собственный вектор должен быть ортогональным к предыдущим, эти конструкции все больше зависят от артефактов анализа и в меньшей степени от соответствующих характеристик данных. В факторном анализе ротация наклонных факторов направлена на решение этой проблемы. Идея Рамси состояла не в том, чтобы вращать компоненты, скорее, чтобы изменить определение ортогональности таким образом, чтобы лучше отражать потребности анализа. Это означало, что если бы вы имели дело с периодическими компонентами, вы бы сгладить на основе $D^3-D$ $D^2$

Кто-то может возразить, что было бы проще удалить тренд с помощью OLS и изучить остатки этой операции. Я никогда не был убежден, что добавленная стоимость FDA стоила огромной сложности метода. Но с теоретической точки зрения стоит рассмотреть связанные с этим вопросы. Все, что мы делаем с данными, все портит. Остатки МНК коррелируют, даже когда исходные данные были независимыми. Сглаживание временного ряда вводит автокорреляции, которых не было в необработанном ряду. Идея FDA состояла в том, чтобы гарантировать, что остатки, которые мы получили от первоначального отклонения, были приспособлены к анализу интереса.

Вы должны помнить, что FDA возникла в начале 80-х, когда сплайн-функции активно изучались - подумайте о Грейс Вахба и ее команде. С тех пор появилось много подходов к многомерным данным, таких как SEM, анализ кривой роста, гауссовские процессы, дальнейшее развитие теории стохастических процессов и многое другое. Я не уверен, что FDA остается лучшим подходом к вопросам, которые он рассматривает. С другой стороны, когда я вижу заявления о том, что якобы является FDA, я часто задаюсь вопросом, действительно ли авторы понимают, что FDA пытается сделать.

Placidia
источник

+1. К сожалению, я заметил ваш ответ только сейчас и только случайно (кто-то еще оставил комментарий под моим ответом здесь, и я прокрутил вниз). Большое спасибо за помощь! Я думаю, мне нужно найти время, чтобы немного больше прочитать об этом и подумать о том, что вы сказали о сходстве с уловкой ядра. Звучит разумно.

говорит амеба, восстанови Монику

5

Я не уверен насчет FPCA, но следует помнить одну вещь: в чрезвычайно больших измерениях гораздо больше «пространства», и точки в пространстве начинают выглядеть равномерно распределенными (то есть все далеко от всего остального). В этот момент ковариационная матрица начнет выглядеть практически однородной и будет очень чувствительной к шуму. Поэтому это становится плохой оценкой «истинной» ковариации. Возможно, FPCA как-то обойдется, но я не уверен.

TDC
источник

Функциональный анализ главных компонентов (FPCA): что это такое?

Ответы: