В настоящее время я читаю технику визуализации t-SNE, и было упомянуто, что одним из недостатков использования анализа главных компонентов (PCA) для визуализации многомерных данных является то, что он сохраняет только большие попарные расстояния между точками. Значимые точки, которые находятся далеко друг от друга в многомерном пространстве, также будут появляться далеко друг от друга в низкоразмерном подпространстве, но в остальном все другие попарные расстояния будут испорчены.
Может ли кто-нибудь помочь мне понять, почему это так и что это означает графически?
machine-learning
data-visualization
pca
tsne
пользователь
источник
источник
Ответы:
Рассмотрим следующий набор данных:
Ось PC1 максимизирует дисперсию проекции. Таким образом, в этом случае он, очевидно, будет идти по диагонали от нижнего левого к верхнему правому углу:
Наибольшее попарное расстояние в исходном наборе данных находится между этими двумя удаленными точками; Обратите внимание, что он почти точно сохранился в PC1. Меньшие, но все же существенные попарные расстояния находятся между каждой из удаленных точек и всеми другими точками; они тоже достаточно хорошо сохранились. Но если вы посмотрите на еще меньшие попарные расстояния между точками в центральном кластере, то вы увидите, что некоторые из них сильно искажены.
Я думаю, что это дает правильную интуицию: PCA находит низкоразмерное подпространство с максимальной дисперсией. Максимальная дисперсия означает, что подпространство будет стремиться выровняться так, чтобы приближаться к точкам, лежащим далеко от центра; поэтому самые большие попарные расстояния будут стремиться сохраняться хорошо, а меньшие - меньше.
Итак, подведем итог:
источник