Я пытаюсь понять вывод анализа главных компонентов, выполняемого следующим образом:
> head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265
Rotation:
PC1 PC2 PC3 PC4
Sepal.Length 0.5210659 -0.37741762 0.7195664 0.2612863
Sepal.Width -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length 0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width 0.5648565 -0.06694199 -0.6342727 0.5235971
>
> summary(res)
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion 0.7296 0.9581 0.99482 1.00000
>
Я склоняюсь к заключению следующего вывода:
Дисперсионная пропорция показывает, сколько общей дисперсии существует в дисперсии конкретного основного компонента. Следовательно, вариабельность PC1 объясняет 73% от общей дисперсии данных.
Показанные значения вращения такие же, как «нагрузки», упомянутые в некоторых описаниях.
Рассматривая повороты PC1, можно сделать вывод, что Sepal.Length, Petal.Length и Petal.Width напрямую связаны, и все они обратно связаны с Sepal.Width (который имеет отрицательное значение при вращении PC1).
У растений может быть фактор (некоторая химическая / физическая функциональная система и т. Д.), Который может влиять на все эти переменные (Sepal.Length, Petal.Length и Petal.Width в одном направлении и Sepal.Width в противоположном направлении).
Если я хочу показать все повороты на одном графике, я могу показать их относительный вклад в общее изменение, умножив каждое вращение на пропорцию дисперсии этого основного компонента. Например, для ПК1 повороты 0,52, -0,26, 0,58 и 0,56 умножаются на 0,73 (пропорциональная дисперсия для ПК1, показанная в итоговом (рез) выходе.
Я прав насчет приведенных выше выводов?
Изменить вопрос 5: я хочу показать все чередования в простой диаграмме следующим образом:
Поскольку ПК2, ПК3 и ПК4 вносят все меньший вклад в изменение, имеет ли смысл регулировать (уменьшать) нагрузки переменных там?
источник
Ответы:
prcomp
документацией , хотя я не уверен, почему они обозначают эту часть аспекта «Вращение», поскольку это подразумевает, что нагрузки были повернуты с использованием некоторого ортогонального (вероятного) или наклонного (менее вероятного) метода.ggplot2
, я полагаю, что это делается с помощьюalpha
эстетический), основанный на пропорции дисперсии, объясняемой каждым компонентом (то есть, более сплошные цвета = больше объяснения дисперсии). Однако, по моему опыту, ваша фигура не является типичным способом представления результатов PCA - я думаю, что таблица или две (нагрузки + дисперсия, объясненные в одном, корреляции компонентов в другом) были бы гораздо более простыми.Ссылки
Fabrigar, LR, Wegener, DT, MacCallum, RC, & Strahan, EJ (1999). Оценка использования исследовательского факторного анализа в психологических исследованиях. Психологические методы , 4 , 272-299.
Видаман, KF (2007). Общие факторы против компонентов: принципы и принципы, ошибки и заблуждения . В R. Cudeck & RC MacCallum (Eds.), Факторный анализ на 100: Исторические события и будущие направления (стр. 177-203). Махва, Нью-Джерси: Лоуренс Эрлбаум.
источник
источник