Читая о PCA, я натолкнулся на следующее объяснение:
Предположим, у нас есть набор данных, где каждая точка данных представляет баллы одного студента по тесту по математике, тесту по физике, тесту на понимание прочитанного и словарному тесту.
Мы находим первые два основных компонента, которые фиксируют 90% изменчивости данных и интерпретируют их загрузку. Мы заключаем, что первый главный компонент представляет общие академические способности, а второй представляет контраст между количественными способностями и речевыми способностями.
В тексте говорится, что нагрузки для ПК1 и ПК2 для ПК1 и для ПК2, и предлагает следующее объяснение:
[T] Первый компонент пропорционален среднему баллу, а второй компонент измеряет разницу между первой парой баллов и второй парой баллов.
Я не могу понять, что означает это объяснение.
Ответы:
Нагрузки (которые не следует путать с собственными векторами) имеют следующие свойства:
Вы извлекли 2 первых ПК из 4. Матрица нагрузок и собственные значения:A
В этом случае оба собственных значения равны. Это редкий случай в реальном мире, он говорит, что PC1 и PC2 имеют одинаковую объяснительную «силу».
Предположим, что вы также вычислили значения компонентов,C X^=CA′ A X^
Nx2
матрицу и вы z-стандартизировали (среднее = 0, st. Dev. = 1) их в каждом столбце. Тогда (как пункт 2 выше говорит), Х = С ' . Но, так как вы оставили только 2 ПК из 4 (вам не хватает еще 2 столбцов в A ) значения Восстановленные данные X не точны, - есть ошибка (если собственные значения 3, 4 не равны нулю).4x4
diag(eigenvalues)
квадратная диагональная матрица с собственными значениями на ее диагонали, а+
верхний индекс обозначает псевдообратную. В твоем случае:Nx4
Связанные ответы моих:
Подробнее о нагрузках против собственных векторов .
Как вычисляются оценки основных компонентов и факторов .
источник