Я пытаюсь понять использование PCA в недавней статье в журнале под названием «Отображение мозговой активности в масштабе с помощью кластерных вычислений» Freeman et al., 2014 (бесплатный pdf доступен на веб-сайте лаборатории ). Они используют PCA для данных временных рядов и используют веса PCA для создания карты мозга.
Данные являются данными изображениями пробного средним, хранимый в виде матрицы ( так называемой Y в работе) с п вокселями (или местами визуализации в головном мозге) × т моменты времени (длина одной стимуляции в мозг).
Они используют СВД в результате Y = U S V ⊤ ( V ⊤ с указанием транспонирование матрицы V ).
Авторы утверждают, что
Основные компоненты (столбцы ) являются векторами длиной т , и оценки (столбцы U ) являются векторами длины п (число вокселей), описывающих проекцию каждого воксел на заданное направлении с помощью соответствующего компонента , формируя проекции на объем, т.е. карты всего мозга.
Таким образом, ПК векторы длины т . Как я могу интерпретировать, что «первый основной компонент объясняет наибольшую разницу», как это обычно выражается в руководствах по PCA? Мы начали с матрицы многих сильно коррелированных временных рядов - как один временной ряд ПК объясняет отклонения в исходной матрице? Я понимаю весь вопрос «вращения гауссовского облака точек по самой изменяющейся оси», но не уверен, как это относится к временным рядам. Что авторы подразумевают под направлением, когда они заявляют: «баллы (столбцы U ) являются векторами длины n (количество вокселей), описывающее проекцию каждого вокселя на направление, заданное соответствующим компонентом "? Как может направление времени основного компонента иметь направление?
Чтобы увидеть пример результирующего временного ряда из линейных комбинаций основных компонентов 1 и 2 и связанной карты мозга, перейдите по следующей ссылке и наведите курсор мыши на точки на графике XY.
Мой второй вопрос связан с траекториями (пространства состояний), которые они создают, используя оценки главных компонентов.
Они создаются путем взятия первых 2 баллов (в случае примера «optomotor», который я изложил выше) и проецирования отдельных испытаний (используемых для создания матрицы, усредненной по пробам, описанной выше) в главное подпространство по уравнению:
Как вы можете видеть по связанным фильмам, каждый след в пространстве состояний представляет деятельность мозга в целом.
Может ли кто-то предоставить интуицию для того, что означает каждый «кадр» фильма о пространстве состояний, по сравнению с рисунком, который связывает график XY баллов первых двух ПК. Что означает в данном «кадре» для 1 испытания эксперимента быть в 1 позиции в пространстве состояний XY и еще одного испытания в другой позиции? Как положения сюжета XY в фильмах связаны с основными следами компонентов на связанном рисунке, упомянутом в первой части моего вопроса?
источник
Ответы:
Q1: Какая связь между временными рядами ПК и «максимальной дисперсией»?
Данные , которые они анализируют являются т точек данных для каждого из п нейронов, таким образом, можно думать о том, что в качестве т точек данных в п - мерном пространстве R п . Это «облако точек», поэтому выполнение PCA сводится к нахождению направлений максимальной дисперсии, как вам хорошо известно. Я предпочитаю называть эти направления (которые являются собственными векторами ковариационной матрицы) «главными осями», а проекции данных на эти направления - «основными компонентами».T^ N T^ N рN
При анализе временных рядов, единственное дополнение к этой картине является то , что точки по значению упорядочены, или пронумерованы (от до т ), в отличие от быть просто неупорядоченная коллекция точек. Это означает, что если мы возьмем частоту срабатывания одного одиночного нейрона (который является одной координатой в R n ), то его значения могут быть нанесены на график как функция времени. Аналогичным образом , если мы возьмем один ПК (который является проекцией из R п на некоторой линии), то он также имеет т значения и может быть представлен как функция времени. Так что, если оригинальные функции - это временные ряды, то ПК также являются временными рядами.1 t^ Rn Rn t^
Я согласен с приведенной выше интерпретацией @ Nestor: каждая оригинальная особенность может рассматриваться как линейная комбинация ПК, а поскольку ПК не коррелированы между собой, их можно рассматривать как базовые функции, на которые разложены оригинальные функции. Это немного похоже на анализ Фурье, но вместо того, чтобы брать фиксированную основу синусов и косинусов, мы находим «наиболее подходящую» основу для этого конкретного набора данных, в том смысле, что первый ПК учитывает наибольшую дисперсию и т. Д.
«Учет большинства отклонений» здесь означает, что если вы берете только одну базисную функцию (временной ряд) и пытаетесь с ее помощью аппроксимировать все свои функции, то первый ПК сделает лучшую работу. Таким образом, основная интуиция здесь заключается в том, что первый ПК является временным рядом базовой функции, который наилучшим образом соответствует всем доступным временным рядам и т. Д.
Почему этот отрывок во Freeman et al. так запутанно?
Предложение, которое вы процитировали из Freeman et al. действительно довольно запутанно:
Я нахожу это очень запутанным, и поэтому я предлагаю игнорировать их выбор слов, а только смотреть на формулы. С этого момента я буду продолжать использовать термины так, как они мне нравятся, а не как Freeman et al. используй их.
Q2: Каковы траектории пространства состояний?
источник
По второму вопросу. Данное уравнение
Я раньше не занимался методологией окраски, и потребуется некоторое время, прежде чем я смог с уверенностью прокомментировать этот аспект. Я нашел комментарий о сходстве с рисунком 4с запутанным, так как раскраска получается регрессией на воксель. Принимая во внимание, что на рисунке 6 каждый след - артефакт целого изображения. Если я не выпрямлен, я думаю, что это направление стимула в течение этого временного сегмента, согласно комментарию на рисунке.
источник