Почему величина дисперсии, описанная моим первым компьютером, так близка к средней попарной корреляции?

9

Какова связь между первым основным компонентом (ами) и средней корреляцией в матрице корреляции?

Например, в эмпирическом приложении я наблюдаю, что средняя корреляция почти совпадает с отношением дисперсии первого главного компонента (первого собственного значения) к общей дисперсии (сумме всех собственных значений).

Есть математические отношения?

Ниже приведена таблица эмпирических результатов. Где корреляция - это средняя корреляция между доходностями компонента индекса акций DAX, рассчитанными за 15-дневное скользящее окно, а объясненная дисперсия - это доля отклонения, объясненного первым основным компонентом, также рассчитанным по 15-дневному скользящему окну.

Может ли это быть объяснено общей моделью фактора риска, такой как CAPM?

введите описание изображения здесь

Студент
источник
1
Как вы думаете, что происходит, когда многие корреляции отрицательны или близки к нулю? Например, сгенерируйте некоторые двумерные нормальные данные с нулевой корреляцией. Почему вы ожидаете, что будет какая-то связь между вашим коэффициентом дисперсии и этой нулевой корреляцией?
whuber

Ответы:

6

Я полагаю, что связь между средней корреляцией и собственным значением 1-го ПК существует, но не является уникальной. Я не математик, чтобы быть в состоянии вывести это, но я, по крайней мере, могу показать отправную точку, из которой может вырасти интуиция или мысль.

Если вы рисуете стандартизированные переменные в качестве векторов в евклидовом пространстве, которое их помещает (а это сокращенное пространство, где оси являются наблюдениями), корреляция - это косинус между двумя векторами .

введите описание изображения здесь

И поскольку все векторы имеют единичную длину (из-за стандартизации), косинусы являются проекциями векторов друг на друга (как показано на левом рисунке с тремя переменными). Первый ПК - это такая линия в этом пространстве, которая максимизирует сумму квадратов проекций на него, а , называемых нагрузками; и эта сумма является первым собственным значением.

Итак, когда вы устанавливаете связь между средним значением трех проекций слева и суммой (или средним значением) трех квадратов проекций справа, вы отвечаете на вопрос о соотношении между средней корреляцией и собственным значением.

ttnphns
источник
6

c

n×n

(1cccc1cccc1cccc1).
(1,1,1,1)/nλ1=1+(n1)cλi=n
R2=1n+n1ncc.

n

Я ожидаю, что для больших матриц этот результат будет примерно верным, даже если корреляции не совсем идентичны.


nn=(1c)/(R2c)c=0.5R2c=0.02n=2530

амеба
источник