Можно ли визуализировать результаты анализа основных компонентов способами, которые дают больше понимания, чем просто сводные таблицы? Возможно ли это сделать, когда число наблюдений велико, скажем, ~ 1e4? И возможно ли это сделать в R [приветствуются другие среды]?
r
data-visualization
pca
biplot
с промежутками
источник
источник
Ответы:
Biplot является полезным инструментом для визуализации результатов PCA. Это позволяет одновременно визуализировать оценки и направления основных компонентов. С 10 000 наблюдений вы, вероятно, столкнетесь с проблемой чрезмерного построения графика. Альфа-смешение может помочь там.
Вот компьютерный набор данных Wine из репозитория UCI ML :
Точки соответствуют баллам ПК1 и ПК2 каждого наблюдения. Стрелки представляют корреляцию переменных с ПК1 и ПК2. Белый кружок указывает теоретическую максимальную степень стрелок. Эллипсы - это 68% эллипсов данных для каждого из 3 сортов вина в данных.
Я сделал код для создания этого графика доступным здесь .
источник
Участок Вахтера может помочь вам визуализировать собственные значения вашего PCA. По сути, это график QQ собственных значений против распределения Марченко-Пастура. У меня есть пример: есть одно доминирующее собственное значение, которое выходит за пределы распределения Марченко-Пастура. Полезность такого рода сюжета зависит от вашего приложения.
источник
Вы также можете использовать пакет психики.
Он содержит метод plot.factor, который будет отображать различные компоненты друг против друга в стиле матрицы рассеяния.
источник