Является ли CCA между двумя идентичными наборами данных эквивалентными PCA в этом наборе данных?

9

Читая Википедию о каноническом корреляционном анализе (CCA) для двух случайных векторов и , мне стало интересно, совпадает ли анализ основных компонентов (PCA) с CCA, когда ?Y X = YXYX=Y

Тим
источник
Пожалуйста, сделайте это более понятным: 1) vectors X and Yэто две переменные (столбцы данных) или два падежа (строки); учитывая, что мы собираемся выполнить анализ переменных. 2) X and Y are the sameВы хотели сказать, что X = Y или как-то иначе?
ttnphns
@ttnphns: 1) и - два случайных вектора. Это два вектора случайных величин, два набора столбцов данных, а не два случая (строки). 2) . Y X = YXYX=Y
Тим
Если каждый набор состоит из одной переменной, существует одна каноническая корреляция, которая точно соответствует Пирсону r между ними; и CCA становится линейной регрессией X на Y и наоборот. Разложение этого r с помощью PCA - это немного другая история. PCA и CCA - это разные анализы.
ttnphns
Привет, @Tim, мне интересно, был ли мой ответ полезным или у тебя еще есть вопросы? Если так, я был бы рад уточнить.
амеба
@amoeba: Да, это так. У меня нет больше вопросов прямо сейчас, и я прочитаю ваш ответ позже. Спасибо за ваш ответ. + 1
Тим

Ответы:

6

Пусть будет и будет матриц данных, представляющих два набора данных с выборками (то есть наблюдениями ваших случайных векторов строк и ) в каждой из них.Xn×p1Yn×p2nXY

CCA ищет линейную комбинацию переменных в и линейную комбинацию переменных в , чтобы они максимально коррелировали между собой; затем он ищет следующую пару при условии нулевой корреляции с первой парой; и т.п.p1Xp2Y

В случае (и ) любая линейная комбинация в одном наборе данных будет тривиально иметь корреляцию с той же линейной комбинацией в другом наборе данных. Таким образом, все пары CCA будут иметь корреляции , а порядок пар произвольный. Единственное оставшееся ограничение - линейные комбинации должны быть некоррелированными между собой. Существует бесконечное количество способов выбора некоррелированных линейных комбинаций (обратите внимание, что веса не должны быть ортогональными в -мерном пространстве), и любой из них даст правильное решение CCA. PCA действительно дает один такой способ, поскольку любые два ПК имеют нулевую корреляцию.X=Yp1=p2=p11pp

Таким образом, решение PCA действительно будет действительным решением CCA, но в этом случае существует бесконечное количество одинаково хороших решений CCA.


Математически CCA ищет правые ( ) и левые ( ) сингулярные векторы , которая в этом случае равна , причем любой вектор является собственным вектором. Так что может быть произвольным. Затем CCA получает веса линейной комбинации как и . В этом случае он сводится к тому, чтобы взять произвольный базис и преобразовать его с помощью , который действительно будет давать некоррелированные направления .б С - 1 / 2 Х Х С Х У С - 1 / 2 У У меня = Ь С - 1 / 2 Х Х С - 1 / 2 Y Y B C - 1 / 2 Х ХabCXX1/2CXYCYY1/2Ia=bCXX1/2aCYY1/2bCXX1/2

амеба
источник