Я использую, FactoMineR
чтобы свести мой набор данных измерений к скрытым переменным.
Карта переменная выше ясно для меня , чтобы интерпретировать, но я смущен , когда речь идет о связях между переменными и компонента 1. Посмотрев на переменной карте, ddp
и cov
очень близко к компоненту в карте, и ddpAbs
немного дальше прочь. Но это не то, что показывают корреляции:
$Dim.1
$Dim.1$quanti
correlation p.value
jittAbs 0.9388158 1.166116e-11
rpvi 0.9388158 1.166116e-11
sd 0.9359214 1.912641e-11
ddpAbs 0.9327135 3.224252e-11
rapAbs 0.9327135 3.224252e-11
ppq5 0.9319101 3.660014e-11
ppq5Abs 0.9247266 1.066303e-10
cov 0.9150209 3.865897e-10
npvi 0.8853941 9.005243e-09
ddp 0.8554260 1.002460e-07
rap 0.8554260 1.002460e-07
jitt 0.8181207 1.042053e-06
cov5_x 0.6596751 4.533596e-04
ps13_20 -0.4593369 2.394361e-02
ps5_12 -0.5237125 8.625918e-03
Затем есть sin2
количество, которое является высотой для rpvi
(например), но эта мера не является переменной, которая вообще ближе всего к первому компоненту.
Variables
Dim.1 ctr cos2 Dim.2 ctr cos2
rpvi | 0.939 8.126 0.881 | 0.147 1.020 0.022 |
npvi | 0.885 7.227 0.784 | 0.075 0.267 0.006 |
cov | 0.915 7.719 0.837 | -0.006 0.001 0.000 |
jittAbs | 0.939 8.126 0.881 | 0.147 1.020 0.022 |
jitt | 0.818 6.171 0.669 | 0.090 0.380 0.008 |
rapAbs | 0.933 8.020 0.870 | 0.126 0.746 0.016 |
rap | 0.855 6.746 0.732 | 0.040 0.076 0.002 |
ppq5Abs | 0.925 7.884 0.855 | 0.091 0.392 0.008 |
ppq5 | 0.932 8.007 0.868 | -0.035 0.057 0.001 |
ddpAbs | 0.933 8.020 0.870 | 0.126 0.746 0.016 |
ddp | 0.855 6.746 0.732 | 0.040 0.076 0.002 |
pa | 0.265 0.646 0.070 | -0.857 34.614 0.735 |
ps5_12 | -0.524 2.529 0.274 | 0.664 20.759 0.441 |
ps13_20 | -0.459 1.945 0.211 | 0.885 36.867 0.783 |
cov5_x | 0.660 4.012 0.435 | 0.245 2.831 0.060 |
sd | 0.936 8.076 0.876 | 0.056 0.150 0.003 |
Итак, на что мне следует обратить внимание, когда возникает связь между переменной и первым компонентом?
correlation
pca
factor-analysis
association-measure
biplot
Фредрик Карлссон
источник
источник
Ответы:
Объяснение графика загрузки PCA или факторного анализа.
График загрузки показывает переменные в виде точек в пространстве основных компонентов (или факторов). Координаты переменных, как правило, являются нагрузками. (Если вы правильно объедините график загрузки с соответствующей диаграммой рассеяния данных в одном и том же пространстве компонентов, это будет биплот.)
Давайте-как - то коррелируют переменные, , W , U . Мы центрируем их и выполняем PCA , извлекая 2 первых основных компонента из трех: F 1 и F 2 . Мы используем загрузки как координаты, чтобы сделать график загрузки ниже. Нагрузки представляют собой нестандартные элементы собственных векторов, то есть собственные векторы, наделенные соответствующими дисперсиями компонентов, или собственные значения.В W U F1 F2
Погрузка сюжета представляет собой плоскость на картинке. Рассмотрим только переменную . Стрелка, обычно нарисованная на участке загрузки, обозначена буквой h ′.V h′ здесь; координаты , a 2 являются загрузками V с F 1 и F 2 соответственно (пожалуйста, знайте, что терминологически правильнее говорить «компонент загружает переменную», а не наоборот).a1 a2 V F1 F2
Стрелка - это проекция на компонентную плоскость вектора h, который является истинным положением переменной V в пространстве переменных, охватываемой V , W , Uh′ h V V W U . Квадрат длины вектора, , является дисперсия из V . В то время как h ′ 2 является частью этой дисперсии, объясняемой двумя компонентами.h2 a V h′2
Загрузка, корреляция, прогнозируемая корреляция . Поскольку переменные были центрированы до извлечения компонентов, - корреляция Пирсона между V и компонентом F 1 . Это не следует путать сcosϕ V F1 на графике нагружения, что является другой величиной: это корреляция Пирсона между компонентом F 1 и переменной, обозначенной здесь как h ′ . В качестве переменной h ′ является прогнозом V по (стандартизированным) компонентам в линейной регрессии (сравните с рисованием геометрии линейной регрессииcosα F1 h′ h′ V здесь) где загрузки - это коэффициенты регрессии (когда компоненты сохраняются ортогональными, как извлечено).a
В дальнейшем. Мы можем помнить (тригонометрию), что . Его можно понимать как скалярное произведение между вектором V и вектором единичной длины F 1 : h ⋅ 1 ⋅ cos ϕa1=h⋅cosϕ V F1 h⋅1⋅cosϕ . задается для этого вектора единичной дисперсии, поскольку он не имеет своей собственной дисперсии, кроме той дисперсии V, которую он объясняет (величиной h ' ): то есть F 1F1 V h′ F1 является извлеченным из V, W, U, а не приглашенным извне объектом. Тогда ясно, -ковариациямеждуVистандартизированныммасштабированным единицейb(для установкиs1= √a1=varV⋅varF1−−−−−−−−−−√⋅r=h⋅1⋅cosϕ V b ) компонентF1. Эта ковариация прямо сопоставима с ковариациями между входными переменными; например, ковариация междуVиWбудет произведением их векторных длин, умноженных на косинус между ними.s1=varF1−−−−−√=1 F1 V W
Подводя итог: загрузка можно рассматривать как ковариации между стандартизированной составляющей и наблюдаемой переменной, ч ⋅ 1 ⋅ соз φa1 h⋅1⋅cosϕ , или , что эквивалентно между стандартизированной компонента и объясняется (по всем компонентам , определяющих сюжет) образ переменная, . Это cos α можно назвать корреляцией V-F1, спроецированной на подпространство компонентов F1-F2.h′⋅1⋅cosα cosα
Вышеупомянутая корреляция между переменной и компонентом, , также называется стандартизированной или масштабированной нагрузкой . Это удобно при интерпретации компонентов, поскольку оно находится в диапазоне [-1,1].cosϕ=a1/h
Отношение к собственным векторам . Масштабированно- нагрузки следует не следует путать с собственным вектором элементом , который - как мы знаем, - это косинус угла между переменным и основным компонентом. Напомним, что загрузка - это элемент собственного вектора, масштабируемый на единичное значение компонента (квадратный корень из собственного значения). Т.е. для переменной V нашего графика: a 1 = e 1 s 1 , где s 1 - ст. отклонение (не 1, а оригинал, т.е. единственное значение) F 1cosϕ V a1=e1s1 s1 1 F1 скрытая переменная. Тогда получается, что элемент собственного вектора , а не самоcosϕ. Путаница вокруг двух слов «косинус» растворитсяесли мы вспомнимкакие пространства представления мы в. Значение собственного вектораявляетсякосинусугла вращенияпеременнойкачестве оси в пр. Компонент как ось в переменном пространстве (он же вид диаграммы рассеяния),например, здесь. В то время какcosϕна нашем графике нагрузкиявляется мерой подобия косинусамежду переменной как вектором и pr. Компонент как ... ну ... как вектор, если хотите (хотя он нарисован как ось на графике), - потому что мы в настоящее время находимся впредметном пространствеe1=a1s1=hs1cosϕ cosϕ cosϕ (график загрузки), где коррелированные переменные являются веерными векторами, а не ортогональными осями, а углы вектора являются мерой ассоциации, а не вращения базового пространства.
Принимая во внимание, что загрузка - это угловая (то есть скалярный тип продукта) мера связи между переменной и компонентом, масштабируемым в единицах, а масштабированная загрузка - это стандартизированная загрузка, где масштаб переменной также уменьшается до единицы, но коэффициент собственного вектора - это нагрузка, где компонент «чрезмерно стандартизирован», т. е. доведен до масштаба (а не 1); в качестве альтернативы, его можно рассматривать как измененную загрузку, где масштаб переменной был доведен до ч / с (вместо 1).1/s h/s
Итак, каковы ассоциации между переменной и компонентом? Вы можете выбрать то, что вам нравится. Это может быть загрузка (ковариация с компонентом, масштабируемым на единицу) ; перемасштабирована загрузка сов ф (= переменная составляющей корреляция); корреляция между изображением (прогноз) и компонентом (= проекция корреляции, потому чтоa cosϕ ). Вы можете даже выбратькоэффициентсобственного вектора e = a / s, если вам нужно (хотя мне интересно, в чем может быть причина). Или придумайте свою меру.cosα e=a/s
Значение квадрата собственного вектора имеет значение вклада переменной в pr. компонент. Перераспределенная нагрузка в квадрате имеет значение вклада пр. компонент в переменную.
Отношение к PCA основано на корреляциях. Если бы мы анализировали PCA не только центрированные, но и стандартизированные (центрированные, а затем масштабированные по единицам) переменные, то векторы трех переменных (а не их проекции на плоскость) были бы одинаковой, единичной длины. Затем автоматически следует, что загрузка - это корреляция , а не ковариация, между переменной и компонентом. Но это соотношение не будет равна «стандартизированы нагрузки» на картинке выше (на основе анализа только центрированных переменных), так как PCA стандартизированных переменных (корреляции на основе PCA) дает различные компоненты , чем PCA центрированных переменных ( PCA на основе ковариаций). В основанном на корреляции PCA a 1cosϕ потому что h = 1 , но главные компоненты - этоне теглавные компоненты, которые мы получаем из PCA на основе ковариаций (читай,читай).a1=cosϕ h=1
В факторном анализе график загрузки имеет в основном ту же концепцию и интерпретацию, что и в PCA. Единственным (но важным ) отличием является содержание . В факторном анализе h ′ - тогда называемая «общностью» переменной - является частью ее дисперсии, которая объясняется общими факторами, которые конкретно отвечают за корреляции между переменными. В то время как в PCA объясненная часть h ′h′ h′ h′ это грубая «смесь» - она частично отражает корреляцию и частично несвязанность между переменными. При факторном анализе плоскость нагрузок на нашей картинке будет ориентирована по-другому (на самом деле, она даже простирается из пространства наших 3d-переменных в 4-е измерение, которое мы не можем нарисовать; плоскость нагрузок не будет подпространством нашего 3d-пространство охватывает и две другие переменные), а проекция h ′ будет другой длины и с другим углом α . (Теоретическое различие между PCA и факторным анализом объясняется геометрически здесь через представление пространства объектов и здесь через представление переменных пространств.)V h′ α
источник