Как интерпретировать PCA на данных временных рядов?

Я пытаюсь понять использование PCA в недавней статье в журнале под названием «Отображение мозговой активности в масштабе с помощью кластерных вычислений» Freeman et al., 2014 (бесплатный pdf доступен на веб-сайте лаборатории ). Они используют PCA для данных временных рядов и используют веса PCA для создания карты мозга.

Данные являются данными изображениями пробного средним, хранимый в виде матрицы ( так называемой в работе) с вокселями (или местами визуализации в головном мозге) моменты времени (длина одной стимуляции в мозг). $\hat {\mathbf Y}$ $n$ $\times \hat t$

Они используют СВД в результате ( с указанием транспонирование матрицы ).

\hat{Y} = {U S V}^{⊤}

$\hat {\mathbf Y} = \mathbf{USV}^\top$

V^{⊤}

$\mathbf V^\top$

V

$\mathbf V$

Авторы утверждают, что

Основные компоненты (столбцы ) являются векторами длиной , и оценки (столбцы ) являются векторами длины (число вокселей), описывающих проекцию каждого воксел на заданное направлении с помощью соответствующего компонента , формируя проекции на объем, т.е. карты всего мозга. $\mathbf V$ $\hat t$ $\mathbf U$ $n$

Таким образом, ПК векторы длины . Как я могу интерпретировать, что «первый основной компонент объясняет наибольшую разницу», как это обычно выражается в руководствах по PCA? Мы начали с матрицы многих сильно коррелированных временных рядов - как один временной ряд ПК объясняет отклонения в исходной матрице? Я понимаю весь вопрос «вращения гауссовского облака точек по самой изменяющейся оси», но не уверен, как это относится к временным рядам. Что авторы подразумевают под направлением, когда они заявляют: «баллы (столбцы ) являются векторами длины $\hat t$ $\mathbf U$ $n$ (количество вокселей), описывающее проекцию каждого вокселя на направление, заданное соответствующим компонентом "? Как может направление времени основного компонента иметь направление?

Чтобы увидеть пример результирующего временного ряда из линейных комбинаций основных компонентов 1 и 2 и связанной карты мозга, перейдите по следующей ссылке и наведите курсор мыши на точки на графике XY.

Фреман и соавт.

Мой второй вопрос связан с траекториями (пространства состояний), которые они создают, используя оценки главных компонентов.

Они создаются путем взятия первых 2 баллов (в случае примера «optomotor», который я изложил выше) и проецирования отдельных испытаний (используемых для создания матрицы, усредненной по пробам, описанной выше) в главное подпространство по уравнению:

J = U^{⊤} Y .

$\mathbf J = \mathbf U^\top \mathbf Y.$

Как вы можете видеть по связанным фильмам, каждый след в пространстве состояний представляет деятельность мозга в целом.

Может ли кто-то предоставить интуицию для того, что означает каждый «кадр» фильма о пространстве состояний, по сравнению с рисунком, который связывает график XY баллов первых двух ПК. Что означает в данном «кадре» для 1 испытания эксперимента быть в 1 позиции в пространстве состояний XY и еще одного испытания в другой позиции? Как положения сюжета XY в фильмах связаны с основными следами компонентов на связанном рисунке, упомянутом в первой части моего вопроса?

Фриман и соавт.

time-series pca state-space-models neuroimaging neuroscience statHacker
источник

+1 Я отредактировал ваш вопрос, посмотрите, как можно отформатировать уравнения текс здесь. Кроме того, я хорошо знаю газету, поэтому отвечу позже.

говорит амеба, восстанови Монику

Это не совсем то, чего хочет ОП, но может пригодиться для интерпретации основных компонентов, когда они взяты из данных временных рядов, поскольку я делаю это все время. Мне обычно нравится интерпретировать PCA как расширение Кархунена-Лёва: выражать заданный временной ряд

(различные временные ряды, к которым вы применяете PCA) как линейную комбинацию некоррелированных временных рядов (т. Е. Главных компонентов). Веса каждого временного ряда в этом случае задаются собственными векторами, полученными из ковариационной матрицы.

X_{t}

$X_t$

Нестор

(См. Это для более подробного объяснения моей точки зрения: astro.puc.cl/~nespino/files/Ch2_PCA_nespinoza.pdf )

Néstor

Я добавил к вашему вопросу несколько скриншотов, на которые вы ссылались.

говорит амеба, восстанови Монику

как ты добавил картинки?

statHacker

Ответы:

Q1: Какая связь между временными рядами ПК и «максимальной дисперсией»?

Данные , которые они анализируют являются точек данных для каждого из нейронов, таким образом, можно думать о том, что в качестве точек данных в - мерном пространстве . Это «облако точек», поэтому выполнение PCA сводится к нахождению направлений максимальной дисперсии, как вам хорошо известно. Я предпочитаю называть эти направления (которые являются собственными векторами ковариационной матрицы) «главными осями», а проекции данных на эти направления - «основными компонентами». $\hat t$ $n$ $\hat t$ $n$ $\mathbb R^n$

При анализе временных рядов, единственное дополнение к этой картине является то , что точки по значению упорядочены, или пронумерованы (от до в отличие от быть просто неупорядоченная коллекция точек. Это означает, что если мы возьмем частоту срабатывания одного одиночного нейрона (который является одной координатой в ), то его значения могут быть нанесены на график как функция времени. Аналогичным образом , если мы возьмем один ПК (который является проекцией из на некоторой линии), то он также имеет значения и может быть представлен как функция времени. Так что, если оригинальные функции - это временные ряды, то ПК также являются временными рядами. $1$ $\hat t$ $\mathbb R^n$ $\mathbb R^n$ $\hat t$

Я согласен с приведенной выше интерпретацией @ Nestor: каждая оригинальная особенность может рассматриваться как линейная комбинация ПК, а поскольку ПК не коррелированы между собой, их можно рассматривать как базовые функции, на которые разложены оригинальные функции. Это немного похоже на анализ Фурье, но вместо того, чтобы брать фиксированную основу синусов и косинусов, мы находим «наиболее подходящую» основу для этого конкретного набора данных, в том смысле, что первый ПК учитывает наибольшую дисперсию и т. Д.

«Учет большинства отклонений» здесь означает, что если вы берете только одну базисную функцию (временной ряд) и пытаетесь с ее помощью аппроксимировать все свои функции, то первый ПК сделает лучшую работу. Таким образом, основная интуиция здесь заключается в том, что первый ПК является временным рядом базовой функции, который наилучшим образом соответствует всем доступным временным рядам и т. Д.

Почему этот отрывок во Freeman et al. так запутанно?

$\hat{\mathbf Y}$

\hat{Y} = {U S V}^{⊤} .

$\hat {\mathbf Y} = \mathbf{USV}^\top.$

U

$\mathbf U$

R^{n}

$\mathbb R^n$

S V

$\mathbf{SV}$

\hat{t}

$\hat t$

Предложение, которое вы процитировали из Freeman et al. действительно довольно запутанно:

Основные компоненты (столбцы V ) являются векторами длиной т , и оценки (столбцы U ) являются векторами длины п (число вокселей), описывающих проекцию каждого воксел на заданное направлении с $\mathbf V$ $\hat t$ $\mathbf U$ $n$

$\mathbf V$ $\mathbf U$ $n$ $\hat t$ $\hat t$ $\mathbf U$

Я нахожу это очень запутанным, и поэтому я предлагаю игнорировать их выбор слов, а только смотреть на формулы. С этого момента я буду продолжать использовать термины так, как они мне нравятся, а не как Freeman et al. используй их.

Q2: Каковы траектории пространства состояний?

$\mathbf U$ $\hat{\mathbf Y}$ $\hat t$

$\mathbf Y$ $\hat t$

$\mathbf Y$

амеба говорит восстановить монику
источник

Я задал этот вопрос в качестве комментария к ниже, но, возможно, @amoeba может помочь? Является ли вектор весов первого главного компонента просто средним временным рядом, коллапсирующим по всем вокселям? Если бы это было среднее значение, это привело бы к наименьшему количеству баллов, чтобы соответствовать индивидуальным трассировкам данных. -

statHacker

Короткий ответ - нет , обычно это не средний временной ряд, хотя во многих случаях он может быть довольно близким. В качестве примера представим коллекцию временных рядов, представляющих собой прямые линии с разными наклонами (положительными и отрицательными), которые проходят через ноль. Тогда средний временной ряд находится около постоянного нуля. Но у первого ПК будет сильная линейная линия. Кстати, я думаю, что это отличный вопрос, и если вы хотите получить более подробную информацию и / или цифры, пожалуйста, задайте его (снова) как отдельный вопрос. Только убедитесь, что не дублировали какие-либо части этого вопроса о Freeman et al .; разделить их.

говорит амеба: восстанови Монику

(или кто-либо еще заинтересованный в ответе) - что касается Q2, что вы подразумеваете под «проецированием [каждого испытания] на первые два [ПК]». Математически очень ясно, что U - вектор длины n вокселей, и когда матрица умножается на длину n матрицы Y, мы достигаем уменьшения размерности до 1-го 2 ПК. Можете ли вы предоставить интуицию в отношении того, что U является матрицей баллов (то есть расстоянием каждого вокселя от первых двух ПК). Могу ли я думать о каждом моменте времени J как о 2-й средней проекции каждой позиции вокселей на 2-мерном графике 1-го изображения выше?

statHacker

U

$U$

U

$U$

S V

$\mathbf{SV}$

$p$ $\bf V$ $\hat t$

$\bf \hat Y$ $n \times \hat t$ $\bf U$ $n \times n$ $\bf V$ $\hat t \times \hat t$

По второму вопросу. Данное уравнение

$\bf J = \bf U^T Y$

$\bf J$ $\times t$

$t \ne \hat t$ $\bf J$

$\hat t$

Я раньше не занимался методологией окраски, и потребуется некоторое время, прежде чем я смог с уверенностью прокомментировать этот аспект. Я нашел комментарий о сходстве с рисунком 4с запутанным, так как раскраска получается регрессией на воксель. Принимая во внимание, что на рисунке 6 каждый след - артефакт целого изображения. Если я не выпрямлен, я думаю, что это направление стимула в течение этого временного сегмента, согласно комментарию на рисунке.

гипотезы
источник

Первая цифра выше относится к эксперименту с одним и тем же визуальным стимулом, представленным каждый раз. Для этих данных есть другой рисунок и фильм. Вторая фигура выше относится к другому эксперименту, в котором стимулы являются визуальными стимулами с различной ориентацией, а следы на 2-й фигуре выше окрашены, чтобы просто соответствовать различным ориентациям визуальных стимулов.

statHacker

Y

$\mathbf Y$

\hat{T}

$\hat {\mathbf T}$

\n

$\n$

V

$\mathbf V$

S

$\mathbf S$

J = U^{⊤} Y .

$\mathbf J = \mathbf U^\top \mathbf Y.$

U

$\mathbf U$

Я переставил вещи. Извинения, осталось до того, как я разобрался с чем-то другим.

предположения

Спасибо за вашу помощь. Является ли вектор весов первого главного компонента просто средним временным рядом, коллапсирующим по всем вокселям? Если бы это было среднее значение, это привело бы к наименьшему количеству баллов, чтобы соответствовать индивидуальным трассировкам данных.

statHacker