Что подразумевается под PCA, сохраняя только большие попарные расстояния?

10

В настоящее время я читаю технику визуализации t-SNE, и было упомянуто, что одним из недостатков использования анализа главных компонентов (PCA) для визуализации многомерных данных является то, что он сохраняет только большие попарные расстояния между точками. Значимые точки, которые находятся далеко друг от друга в многомерном пространстве, также будут появляться далеко друг от друга в низкоразмерном подпространстве, но в остальном все другие попарные расстояния будут испорчены.

Может ли кто-нибудь помочь мне понять, почему это так и что это означает графически?

пользователь
источник
PCA тесно связана с евклидовыми и махаланобисовыми расстояниями, которые близоруки в более высоких измерениях, они не могут видеть небольшие расстояния.
Аксакал
Отметим также, что PCA, рассматриваемая как простейшая метрическая система MDS, предназначена для восстановления суммированных квадратов евклидовых расстояний. Hense, точность на малых расстояниях страдает.
ttnphns

Ответы:

8

Рассмотрим следующий набор данных:

Набор данных PCA

Ось PC1 максимизирует дисперсию проекции. Таким образом, в этом случае он, очевидно, будет идти по диагонали от нижнего левого к верхнему правому углу:

PCA сохраняя только большие попарные расстояния

Наибольшее попарное расстояние в исходном наборе данных находится между этими двумя удаленными точками; Обратите внимание, что он почти точно сохранился в PC1. Меньшие, но все же существенные попарные расстояния находятся между каждой из удаленных точек и всеми другими точками; они тоже достаточно хорошо сохранились. Но если вы посмотрите на еще меньшие попарные расстояния между точками в центральном кластере, то вы увидите, что некоторые из них сильно искажены.

Я думаю, что это дает правильную интуицию: PCA находит низкоразмерное подпространство с максимальной дисперсией. Максимальная дисперсия означает, что подпространство будет стремиться выровняться так, чтобы приближаться к точкам, лежащим далеко от центра; поэтому самые большие попарные расстояния будут стремиться сохраняться хорошо, а меньшие - меньше.

1010×1010×10на самом деле лучше всего сохранять именно PC1 (см. мой ответ там для доказательства). И можно утверждать, что большие попарные расстояния обычно также означают большие скалярные произведения; фактически, один из алгоритмов MDS (классический / MDS Торгерсона) готов явно сделать это предположение.

Итак, подведем итог:

  1. PCA стремится сохранить матрицу попарных скалярных произведений в том смысле, что сумма квадратов разностей между исходными и восстановленными скалярными произведениями должна быть минимальной.
  2. Это означает, что он скорее сохранит скалярные произведения с наибольшим абсолютным значением и будет меньше заботиться о тех, у которых небольшое абсолютное значение, так как они добавляют меньше к сумме квадратов ошибок.
  3. Следовательно, PCA сохраняет большие скалярные продукты лучше, чем меньшие.
  4. Попарные расстояния будут сохраняться только настолько, насколько они похожи на скалярные произведения, что часто, но не всегда. Если это так, то большие попарные расстояния также будут сохраняться лучше, чем меньшие.
амеба
источник
Я не думаю, что это правильный образ. Это не показывает, как дела ухудшаются с увеличением размерности
Аксакал
2
Я не уверен, что понимаю вашу мысль, @Aksakal. Рассмотрите возможность размещения альтернативного ответа с вашей точки зрения. Я думаю, что эффект лучшего сохранения больших, чем меньших парных расстояний уже присутствует в 2D, и не нужно думать о высокой размерности, чтобы понять, что происходит. Поэтому я сосредоточился на простом 2D-примере.
амеба
То, что вы нарисовали, будет применимо к любому методу. Я могу поставить пару пунктов очень далеко и утверждать, что они перевешивают остальные. Проблема с евклидовыми расстояниями заключается в том, что их динамический диапазон уменьшается с увеличением размерности
Аксакал
+1, но я бы сместил акцент, несколько иначе, чем ты (в основном пункт 4). Дело не в том, что это расстояния, а скалярные произведения (матрица «двойного центрирования») - в конце концов, учитывая диагональ, они сохраняют одинаковую информацию. Скорее, проблема в точности аналогична вероятности PCA против факторного анализа. PCoA Торгерсона, как PCA, будет стремиться максимизировать реконструкцию sc. прод. матрица в основном через ее диагональ, не контролируя, в частности, как будут установлены недиагональные элементы.
ttnphns
(продолжение) След упомянутой диагонали является общей изменчивостью и напрямую связан с суммой всех квадратов парных расстояний, оставляя позади отдельные расстояния. Это можно сформулировать также в терминах теоремы Эккарта-Юнга, которая гласит, что реконструированное PCA облако данных наиболее близко по сумме квадратов к исходному; то есть общее квадратное расстояние между старыми точками и их спроектированными PCA точками минимально. Это не то же самое, что старые попарные расстояния - новые отношения расстояний.
ttnphns