Какова правильная мера связи переменной с компонентом PCA (на биплоте / графике загрузки)?

Объяснение графика загрузки PCA или факторного анализа.

График загрузки показывает переменные в виде точек в пространстве основных компонентов (или факторов). Координаты переменных, как правило, являются нагрузками. (Если вы правильно объедините график загрузки с соответствующей диаграммой рассеяния данных в одном и том же пространстве компонентов, это будет биплот.)

Давайте-как - то коррелируют переменные, , , . Мы центрируем их и выполняем PCA , извлекая 2 первых основных компонента из трех: и . Мы используем загрузки как координаты, чтобы сделать график загрузки ниже. Нагрузки представляют собой нестандартные элементы собственных векторов, то есть собственные векторы, наделенные соответствующими дисперсиями компонентов, или собственные значения. $V$ $W$ $U$ $F_1$ $F_2$

enter image description here

Погрузка сюжета представляет собой плоскость на картинке. Рассмотрим только переменную . Стрелка, обычно нарисованная на участке загрузки, обозначена буквой $V$ $h'$ здесь; координаты , являются загрузками с и соответственно (пожалуйста, знайте, что терминологически правильнее говорить «компонент загружает переменную», а не наоборот). $a_1$ $a_2$ $V$ $F_1$ $F_2$

Стрелка - это проекция на компонентную плоскость вектора который является истинным положением переменной в пространстве переменных, охватываемой , , $h'$ $h$ $V$ $V$ $W$ $U$ . Квадрат длины вектора, , является дисперсия из . В то время как является частью этой дисперсии, объясняемой двумя компонентами. $h^2$ $\bf^a$ $V$ $h'^2$

Загрузка, корреляция, прогнозируемая корреляция . Поскольку переменные были центрированы до извлечения компонентов, - корреляция Пирсона между и компонентом . Это не следует путать с $\cos \phi$ $V$ $F_1$ на графике нагружения, что является другой величиной: это корреляция Пирсона между компонентом и переменной, обозначенной здесь как . В качестве переменной является прогнозом по (стандартизированным) компонентам в линейной регрессии (сравните с рисованием геометрии линейной регрессии $\cos \alpha$ $F_1$ $h'$ $h'$ $V$ здесь) где загрузки - это коэффициенты регрессии (когда компоненты сохраняются ортогональными, как извлечено). $a$

В дальнейшем. Мы можем помнить (тригонометрию), что . Его можно понимать как скалярное произведение между вектором и вектором единичной длины : $a_1 = h \cdot \cos \phi$ $V$ $F_1$ $h \cdot 1 \cdot \cos \phi$ . задается для этого вектора единичной дисперсии, поскольку он не имеет своей собственной дисперсии, кроме той дисперсии которую он объясняет (величиной ): то есть $F_1$ $V$ $h'$ $F_1$ является извлеченным из V, W, U, а не приглашенным извне объектом. Тогда ясно, -ковариациямеждуистандартизированныммасштабированным единицей(для установки $a_1 = \sqrt{var_{V} \cdot var_{F_1}} \cdot r = h \cdot 1 \cdot \cos \phi$ $V$ $\bf^b$ ) компонент. Эта ковариация прямо сопоставима с ковариациями между входными переменными; например, ковариация междуибудет произведением их векторных длин, умноженных на косинус между ними. $s_1=\sqrt{var_{F_1}}=1$ $F_1$ $V$ $W$

Подводя итог: загрузка можно рассматривать как ковариации между стандартизированной составляющей и наблюдаемой переменной, $a_1$ $h \cdot 1 \cdot \cos \phi$ , или , что эквивалентно между стандартизированной компонента и объясняется (по всем компонентам , определяющих сюжет) образ переменная, . Это можно назвать корреляцией V-F1, спроецированной на подпространство компонентов F1-F2. $h' \cdot 1 \cdot \cos \alpha$ $\cos \alpha$

Вышеупомянутая корреляция между переменной и компонентом, , также называется стандартизированной или масштабированной нагрузкой . Это удобно при интерпретации компонентов, поскольку оно находится в диапазоне [-1,1]. $\cos \phi = a_1/h$

Отношение к собственным векторам . Масштабированно- нагрузки следует не следует путать с собственным вектором элементом , который - как мы знаем, - это косинус угла между переменным и основным компонентом. Напомним, что загрузка - это элемент собственного вектора, масштабируемый на единичное значение компонента (квадратный корень из собственного значения). Т.е. для переменной нашего графика: , где - ст. отклонение (не а оригинал, т.е. единственное значение) $\cos \phi$ $V$ $a_1= e_1s_1$ $s_1$ $1$ $F_1$ скрытая переменная. Тогда получается, что элемент собственного вектора , а не само. Путаница вокруг двух слов «косинус» растворитсяесли мы вспомнимкакие пространства представления мы в. Значение собственного вектораявляетсякосинусугла вращенияпеременнойкачестве оси в пр. Компонент как ось в переменном пространстве (он же вид диаграммы рассеяния),например, здесь. В то время какна нашем графике нагрузкиявляется мерой подобия косинусамежду переменной как вектором и pr. Компонент как ... ну ... как вектор, если хотите (хотя он нарисован как ось на графике), - потому что мы в настоящее время находимся впредметном пространстве $e_1= \frac{a_1}{s_1}=\frac{h}{s_1}\cos \phi$ $\cos \phi$ $\cos \phi$ (график загрузки), где коррелированные переменные являются веерными векторами, а не ортогональными осями, а углы вектора являются мерой ассоциации, а не вращения базового пространства.

Принимая во внимание, что загрузка - это угловая (то есть скалярный тип продукта) мера связи между переменной и компонентом, масштабируемым в единицах, а масштабированная загрузка - это стандартизированная загрузка, где масштаб переменной также уменьшается до единицы, но коэффициент собственного вектора - это нагрузка, где компонент «чрезмерно стандартизирован», т. е. доведен до масштаба (а не 1); в качестве альтернативы, его можно рассматривать как измененную загрузку, где масштаб переменной был доведен до (вместо 1). $1/s$ $h/s$

Итак, каковы ассоциации между переменной и компонентом? Вы можете выбрать то, что вам нравится. Это может быть загрузка (ковариация с компонентом, масштабируемым на единицу) ; перемасштабирована загрузка (= переменная составляющей корреляция); корреляция между изображением (прогноз) и компонентом (= проекция корреляции, $a$ $\cos \phi$ ). Вы можете даже выбратькоэффициентсобственного вектора если вам нужно (хотя мне интересно, в чем может быть причина). Или придумайте свою меру. $\cos \alpha$ $e= a/s$

Значение квадрата собственного вектора имеет значение вклада переменной в pr. компонент. Перераспределенная нагрузка в квадрате имеет значение вклада пр. компонент в переменную.

Отношение к PCA основано на корреляциях. Если бы мы анализировали PCA не только центрированные, но и стандартизированные (центрированные, а затем масштабированные по единицам) переменные, то векторы трех переменных (а не их проекции на плоскость) были бы одинаковой, единичной длины. Затем автоматически следует, что загрузка - это корреляция , а не ковариация, между переменной и компонентом. Но это соотношение не будет равна «стандартизированы нагрузки» на картинке выше (на основе анализа только центрированных переменных), так как PCA стандартизированных переменных (корреляции на основе PCA) дает различные компоненты , чем PCA центрированных переменных ( PCA на основе ковариаций). В основанном на корреляции PCA $\cos \phi$ потому что , но главные компоненты - этоне теглавные компоненты, которые мы получаем из PCA на основе ковариаций (читай,читай). $a_1= \cos \phi$ $h=1$

В факторном анализе график загрузки имеет в основном ту же концепцию и интерпретацию, что и в PCA. Единственным (но важным ) отличием является содержание . В факторном анализе - тогда называемая «общностью» переменной - является частью ее дисперсии, которая объясняется общими факторами, которые конкретно отвечают за корреляции между переменными. В то время как в PCA объясненная часть $h'$ $h'$ $h'$ это грубая «смесь» - она частично отражает корреляцию и частично несвязанность между переменными. При факторном анализе плоскость нагрузок на нашей картинке будет ориентирована по-другому (на самом деле, она даже простирается из пространства наших 3d-переменных в 4-е измерение, которое мы не можем нарисовать; плоскость нагрузок не будет подпространством нашего 3d-пространство охватывает и две другие переменные), а проекция будет другой длины и с другим углом . (Теоретическое различие между PCA и факторным анализом объясняется геометрически здесь через представление пространства объектов и здесь через представление переменных пространств.) $V$ $h'$ $\alpha$

$\bf^{a,b}$ $/(n-1)$ $n$ $n$ $\bf X$ $\bf X'X$ obtained after initial division of $\bf X$ by $\sqrt{n-1}$ factor. After that, in the formula of a loading (see the middle section of the answer), $a_1 = h \cdot s_1 \cdot \cos \phi$ , term $h$ is st. deviation $\sqrt{var_{V}}$ in (A) but root scatter (i.e. norm) $\Vert V \Vert$ in (B). Term $s_1$ , which equals $1$ , is the standardized $F_1$ component's st. deviation $\sqrt{var_{F_1}}$ in (A) but root scatter $\Vert F_1 \Vert$ in (B). Finally, $\cos \phi = r$ is the correlation which is insensitive to the usage of $n-1$ in its calculations. Thus, we simply speak conceptually of variances (A) or of scatters (B), while the values themselves remain the same in the formula in both instances.

ttnphns
источник

This answer is great and has a lot of info, but I think the actual answer to the question would lie in "what does

α

$\alpha$ mean?"

shadowtalker

@ssdecontrol, I added a line regarding that.

ttnphns

I have been reading your posts on the topic, and I'm stuck on seemingly the most obvious part, when you say... "clearly,

a_{1} = \sqrt{v a r_{V} \cdot v a r_{F 1}} \cdot r = h \cdot 1 \cdot \cos ϕ

$a_1 = \sqrt{var_{V} \cdot var_{F1}} \cdot r = h \cdot 1 \cdot \cos \phi$ . Since

r = c o s ϕ

$r=cos\phi$ and

\sqrt{v a r F 1} = 1

$\sqrt{var{F1}}=1$ , it follows that

\sqrt{v a r_{V}} = h

$\sqrt{var_V}=h$ . However,

h = ‖ V ‖ = \sqrt{\sum x^{2}}

$h=\Vert V\Vert= \sqrt{\sum x^2}$ , whereas

\sqrt{v a r_{V}} = \sqrt{\frac{\sum x^{2}}{n - 1}}

$\sqrt{var_V}=\sqrt{\frac{\sum x^2}{n-1}}$ . What am I missing?

Antoni Parellada

@AntoniParellada, please check the footnote.

ttnphns

I read your addendum, and it is very illuminating. Thank you! Without picking out specific sentences, it would explain some of the transitions from unit-variance to unit norm scaling of

F_{1}

$F_1$ along the answer, which previously presented some difficulty (to me).

Antoni Parellada

Какова правильная мера связи переменной с компонентом PCA (на биплоте / графике загрузки)?

Ответы: