Какова связь между первым основным компонентом (ами) и средней корреляцией в матрице корреляции?
Например, в эмпирическом приложении я наблюдаю, что средняя корреляция почти совпадает с отношением дисперсии первого главного компонента (первого собственного значения) к общей дисперсии (сумме всех собственных значений).
Есть математические отношения?
Ниже приведена таблица эмпирических результатов. Где корреляция - это средняя корреляция между доходностями компонента индекса акций DAX, рассчитанными за 15-дневное скользящее окно, а объясненная дисперсия - это доля отклонения, объясненного первым основным компонентом, также рассчитанным по 15-дневному скользящему окну.
Может ли это быть объяснено общей моделью фактора риска, такой как CAPM?
Ответы:
Я полагаю, что связь между средней корреляцией и собственным значением 1-го ПК существует, но не является уникальной. Я не математик, чтобы быть в состоянии вывести это, но я, по крайней мере, могу показать отправную точку, из которой может вырасти интуиция или мысль.
Если вы рисуете стандартизированные переменные в качестве векторов в евклидовом пространстве, которое их помещает (а это сокращенное пространство, где оси являются наблюдениями), корреляция - это косинус между двумя векторами .
И поскольку все векторы имеют единичную длину (из-за стандартизации), косинусы являются проекциями векторов друг на друга (как показано на левом рисунке с тремя переменными). Первый ПК - это такая линия в этом пространстве, которая максимизирует сумму квадратов проекций на него, а , называемых нагрузками; и эта сумма является первым собственным значением.
Итак, когда вы устанавливаете связь между средним значением трех проекций слева и суммой (или средним значением) трех квадратов проекций справа, вы отвечаете на вопрос о соотношении между средней корреляцией и собственным значением.
источник
Я ожидаю, что для больших матриц этот результат будет примерно верным, даже если корреляции не совсем идентичны.
источник