Какова правильная мера связи переменной с компонентом PCA (на биплоте / графике загрузки)?

17

Я использую, FactoMineRчтобы свести мой набор данных измерений к скрытым переменным.

! [переменная карта] (http://f.cl.ly/items/071s190V1G3s1u0T0Y3M/pca.png)

Карта переменная выше ясно для меня , чтобы интерпретировать, но я смущен , когда речь идет о связях между переменными и компонента 1. Посмотрев на переменной карте, ddpи covочень близко к компоненту в карте, и ddpAbsнемного дальше прочь. Но это не то, что показывают корреляции:

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

Затем есть sin2количество, которое является высотой для rpvi(например), но эта мера не является переменной, которая вообще ближе всего к первому компоненту.

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

Итак, на что мне следует обратить внимание, когда возникает связь между переменной и первым компонентом?

Фредрик Карлссон
источник
1
Несмотря на то, что точки на вашей карте (которая выглядит как график загрузки) захламлены, я бы сказал, что график хорошо соответствует выводу «корреляции». Эти "корреляции" являются координатами на Dim1. Они, нагрузки, являются корреляциями между фактором и переменными (когда вы основываете свой анализ на стандартизированных данных = на корреляциях между переменными).
ttnphns
В дополнение к ответам ниже, пожалуйста, проверьте этот с дальнейшими ссылками там.
ttnphns

Ответы:

25

Объяснение графика загрузки PCA или факторного анализа.

График загрузки показывает переменные в виде точек в пространстве основных компонентов (или факторов). Координаты переменных, как правило, являются нагрузками. (Если вы правильно объедините график загрузки с соответствующей диаграммой рассеяния данных в одном и том же пространстве компонентов, это будет биплот.)

Давайте-как - то коррелируют переменные, , W , U . Мы центрируем их и выполняем PCA , извлекая 2 первых основных компонента из трех: F 1 и F 2 . Мы используем загрузки как координаты, чтобы сделать график загрузки ниже. Нагрузки представляют собой нестандартные элементы собственных векторов, то есть собственные векторы, наделенные соответствующими дисперсиями компонентов, или собственные значения.ВWUF1F2

enter image description here

Погрузка сюжета представляет собой плоскость на картинке. Рассмотрим только переменную . Стрелка, обычно нарисованная на участке загрузки, обозначена буквой h ′.Vh здесь; координаты , a 2 являются загрузками V с F 1 и F 2 соответственно (пожалуйста, знайте, что терминологически правильнее говорить «компонент загружает переменную», а не наоборот).a1a2VF1F2

Стрелка - это проекция на компонентную плоскость вектора h, который является истинным положением переменной V в пространстве переменных, охватываемой V , W , UhhVVWU . Квадрат длины вектора, , является дисперсия из V . В то время как h 2 является частью этой дисперсии, объясняемой двумя компонентами.h2aVh2

Загрузка, корреляция, прогнозируемая корреляция . Поскольку переменные были центрированы до извлечения компонентов, - корреляция Пирсона между V и компонентом F 1 . Это не следует путать сcosϕVF1 на графике нагружения, что является другой величиной: это корреляция Пирсона между компонентом F 1 и переменной, обозначенной здесь как h . В качестве переменной h является прогнозом V по (стандартизированным) компонентам в линейной регрессии (сравните с рисованием геометрии линейной регрессииcosαF1hhV здесь) где загрузки - это коэффициенты регрессии (когда компоненты сохраняются ортогональными, как извлечено).a

В дальнейшем. Мы можем помнить (тригонометрию), что . Его можно понимать как скалярное произведение между вектором V и вектором единичной длины F 1 : h 1 cos ϕa1=hcosϕVF1h1cosϕ . задается для этого вектора единичной дисперсии, поскольку он не имеет своей собственной дисперсии, кроме той дисперсии V, которую он объясняет (величиной h ' ): то есть F 1F1VhF1является извлеченным из V, W, U, а не приглашенным извне объектом. Тогда ясно, -ковариациямеждуVистандартизированныммасштабированным единицейb(для установкиs1=a1=varVvarF1r=h1cosϕVb) компонентF1. Эта ковариация прямо сопоставима с ковариациями между входными переменными; например, ковариация междуVиWбудет произведением их векторных длин, умноженных на косинус между ними.s1=varF1=1F1VW

Подводя итог: загрузка можно рассматривать как ковариации между стандартизированной составляющей и наблюдаемой переменной, ч 1 соз φa1h1cosϕ , или , что эквивалентно между стандартизированной компонента и объясняется (по всем компонентам , определяющих сюжет) образ переменная, . Это cos α можно назвать корреляцией V-F1, спроецированной на подпространство компонентов F1-F2.h1cosαcosα

Вышеупомянутая корреляция между переменной и компонентом, , также называется стандартизированной или масштабированной нагрузкой . Это удобно при интерпретации компонентов, поскольку оно находится в диапазоне [-1,1].cosϕ=a1/h

Отношение к собственным векторам . Масштабированно- нагрузки следует не следует путать с собственным вектором элементом , который - как мы знаем, - это косинус угла между переменным и основным компонентом. Напомним, что загрузка - это элемент собственного вектора, масштабируемый на единичное значение компонента (квадратный корень из собственного значения). Т.е. для переменной V нашего графика: a 1 = e 1 s 1 , где s 1 - ст. отклонение (не 1, а оригинал, т.е. единственное значение) F 1cosϕVa1=e1s1s11F1скрытая переменная. Тогда получается, что элемент собственного вектора , а не самоcosϕ. Путаница вокруг двух слов «косинус» растворитсяесли мы вспомнимкакие пространства представления мы в. Значение собственного вектораявляетсякосинусугла вращенияпеременнойкачестве оси в пр. Компонент как ось в переменном пространстве (он же вид диаграммы рассеяния),например, здесь. В то время какcosϕна нашем графике нагрузкиявляется мерой подобия косинусамежду переменной как вектором и pr. Компонент как ... ну ... как вектор, если хотите (хотя он нарисован как ось на графике), - потому что мы в настоящее время находимся впредметном пространствеe1=a1s1=hs1cosϕcosϕcosϕ (график загрузки), где коррелированные переменные являются веерными векторами, а не ортогональными осями, а углы вектора являются мерой ассоциации, а не вращения базового пространства.

Принимая во внимание, что загрузка - это угловая (то есть скалярный тип продукта) мера связи между переменной и компонентом, масштабируемым в единицах, а масштабированная загрузка - это стандартизированная загрузка, где масштаб переменной также уменьшается до единицы, но коэффициент собственного вектора - это нагрузка, где компонент «чрезмерно стандартизирован», т. е. доведен до масштаба (а не 1); в качестве альтернативы, его можно рассматривать как измененную загрузку, где масштаб переменной был доведен до ч / с (вместо 1).1/sh/s

Итак, каковы ассоциации между переменной и компонентом? Вы можете выбрать то, что вам нравится. Это может быть загрузка (ковариация с компонентом, масштабируемым на единицу) ; перемасштабирована загрузка сов ф (= переменная составляющей корреляция); корреляция между изображением (прогноз) и компонентом (= проекция корреляции, потому чтоa cosϕ ). Вы можете даже выбратькоэффициентсобственного вектора e = a / s, если вам нужно (хотя мне интересно, в чем может быть причина). Или придумайте свою меру.cosαe=a/s

Значение квадрата собственного вектора имеет значение вклада переменной в pr. компонент. Перераспределенная нагрузка в квадрате имеет значение вклада пр. компонент в переменную.

Отношение к PCA основано на корреляциях. Если бы мы анализировали PCA не только центрированные, но и стандартизированные (центрированные, а затем масштабированные по единицам) переменные, то векторы трех переменных (а не их проекции на плоскость) были бы одинаковой, единичной длины. Затем автоматически следует, что загрузка - это корреляция , а не ковариация, между переменной и компонентом. Но это соотношение не будет равна «стандартизированы нагрузки» на картинке выше (на основе анализа только центрированных переменных), так как PCA стандартизированных переменных (корреляции на основе PCA) дает различные компоненты , чем PCA центрированных переменных ( PCA на основе ковариаций). В основанном на корреляции PCA a 1cosϕ потому что h = 1 , но главные компоненты - этоне теглавные компоненты, которые мы получаем из PCA на основе ковариаций (читай,читай).a1=cosϕh=1

В факторном анализе график загрузки имеет в основном ту же концепцию и интерпретацию, что и в PCA. Единственным (но важным ) отличием является содержание . В факторном анализе h - тогда называемая «общностью» переменной - является частью ее дисперсии, которая объясняется общими факторами, которые конкретно отвечают за корреляции между переменными. В то время как в PCA объясненная часть h hh hэто грубая «смесь» - она ​​частично отражает корреляцию и частично несвязанность между переменными. При факторном анализе плоскость нагрузок на нашей картинке будет ориентирована по-другому (на самом деле, она даже простирается из пространства наших 3d-переменных в 4-е измерение, которое мы не можем нарисовать; плоскость нагрузок не будет подпространством нашего 3d-пространство охватывает и две другие переменные), а проекция h будет другой длины и с другим углом α . (Теоретическое различие между PCA и факторным анализом объясняется геометрически здесь через представление пространства объектов и здесь через представление переменных пространств.)Vhα


a,b/(n1)nnXXX obtained after initial division of X by n1 factor. After that, in the formula of a loading (see the middle section of the answer), a1=hs1cosϕ, term h is st. deviation varV in (A) but root scatter (i.e. norm) V in (B). Term s1, which equals 1, is the standardized F1 component's st. deviation varF1 in (A) but root scatter F1 in (B). Finally, cosϕ=r is the correlation which is insensitive to the usage of n1 in its calculations. Thus, we simply speak conceptually of variances (A) or of scatters (B), while the values themselves remain the same in the formula in both instances.

ttnphns
источник
This answer is great and has a lot of info, but I think the actual answer to the question would lie in "what does α mean?"
shadowtalker
@ssdecontrol, I added a line regarding that.
ttnphns
I have been reading your posts on the topic, and I'm stuck on seemingly the most obvious part, when you say... "clearly, a1=varVvarF1r=h1cosϕ. Since r=cosϕ and varF1=1, it follows that varV=h. However, h=V=x2, whereas varV=x2n1. What am I missing?
Antoni Parellada
1
@AntoniParellada, please check the footnote.
ttnphns
1
I read your addendum, and it is very illuminating. Thank you! Without picking out specific sentences, it would explain some of the transitions from unit-variance to unit norm scaling of F1 along the answer, which previously presented some difficulty (to me).
Antoni Parellada