Как интерпретировать загрузки PCA?

13

Читая о PCA, я натолкнулся на следующее объяснение:

Предположим, у нас есть набор данных, где каждая точка данных представляет баллы одного студента по тесту по математике, тесту по физике, тесту на понимание прочитанного и словарному тесту.

Мы находим первые два основных компонента, которые фиксируют 90% изменчивости данных и интерпретируют их загрузку. Мы заключаем, что первый главный компонент представляет общие академические способности, а второй представляет контраст между количественными способностями и речевыми способностями.

В тексте говорится, что нагрузки для ПК1 и ПК2 для ПК1 и для ПК2, и предлагает следующее объяснение:(0.5,0.5,0.5,0.5)(0.5,0.5,0.5,0.5)

[T] Первый компонент пропорционален среднему баллу, а второй компонент измеряет разницу между первой парой баллов и второй парой баллов.

Я не могу понять, что означает это объяснение.

Приянка
источник
7
Каким-то образом ответ @ ttnphns входит во многие математические детали, но я думаю, что оригинальный вопрос был действительно простым: почему вектор нагрузок для ПК1 (0,5, 0,5, 0,5, 0,5) означает, что первый компонент «пропорционален среднему баллу» «? Ответ таков: нагрузки [пропорциональны] коэффициентам в линейной комбинации исходных переменных, составляющих PC1. Итак, ваш первый ПК1 - это сумма всех четырех переменных, умноженная на 0,5. Это означает, что оно пропорционально среднему из четырех переменных. И похоже с PC2. Я думаю, что это отвечает на оригинальный вопрос.
говорит амеба, восстанови Монику
@amoeba - Вы знаете, как трудно встретить такое простое объяснение нагрузок. Каким-то образом, повсюду вокруг меня глоток желчи, прежде чем я решу перейти к следующему объяснению в Google. Спасибо!
MiloMinderbinder

Ответы:

13

Нагрузки (которые не следует путать с собственными векторами) имеют следующие свойства:

  1. Их суммы квадратов внутри каждого компонента являются собственными значениями (дисперсиями компонентов).
  2. Нагрузки - это коэффициенты в линейной комбинации, предсказывающие переменную (стандартизированными) компонентами.

Вы извлекли 2 первых ПК из 4. Матрица нагрузок и собственные значения:A

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

В этом случае оба собственных значения равны. Это редкий случай в реальном мире, он говорит, что PC1 и PC2 имеют одинаковую объяснительную «силу».

Предположим, что вы также вычислили значения компонентов, Nx2матрицу и вы z-стандартизировали (среднее = 0, st. Dev. = 1) их в каждом столбце. Тогда (как пункт 2 выше говорит), Х = С ' . Но, так как вы оставили только 2 ПК из 4 (вам не хватает еще 2 столбцов в A ) значения Восстановленные данные X не точны, - есть ошибка (если собственные значения 3, 4 не равны нулю).CX^=CAAX^

A4x4B=(A1)B=Adiag(eigenvalues)1=(A+)diag(eigenvalues)квадратная диагональная матрица с собственными значениями на ее диагонали, а +верхний индекс обозначает псевдообратную. В твоем случае:

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

XNx4C=XBC

ПК1 = 0,5 * Х1 + 0,5 * Х2 + 0,5 * Х3 + 0,5 * Х4 ~ (Х1 + Х2 + Х3 + Х4) / 4

«Первый компонент пропорционален среднему баллу»

ПК2 = 0,5 * Х1 + 0,5 * Х2 - 0,5 * Х3 - 0,5 * Х4 = (0,5 * Х1 + 0,5 * Х2) - (0,5 * Х3 + 0,5 * Х4)

«второй компонент измеряет разницу между первой парой баллов и второй парой баллов»

B=A


B=Adiag(eigenvalues)1B=R1ARбыть ковариационной (или корреляционной) матрицей переменных. Последняя формула исходит непосредственно из теории линейной регрессии. Две формулы эквивалентны только в контексте PCA. В факторном анализе это не так, и для вычисления факторных баллов (которые всегда являются приблизительными в FA) следует полагаться на вторую формулу.


Связанные ответы моих:

Подробнее о нагрузках против собственных векторов .

Как вычисляются оценки основных компонентов и факторов .

ttnphns
источник
2
Если на 2 компонента из 4 приходится 90% изменчивости, то почему их собственные значения равны 2?
Ник Кокс
Ник, я считаю, что это вопрос к ОП. Он не дал данных или матрицы ковариации / корреляции. Все, что мы получили от него, - это (довольно нереальная) матрица загрузки двух первых компьютеров.
ttnphns
3
4×44150%90%