У меня есть набор точек данных в N-мерном пространстве. Кроме того, у меня также есть центроид в этом же N-мерном пространстве. Существуют ли какие-либо подходы, которые могут позволить мне проецировать эти точки данных в двумерное пространство, сохраняя информацию об их относительном расстоянии в исходном пространстве. PCA правильный?
data-visualization
pca
multidimensional-scaling
бит вопрос
источник
источник
Ответы:
Общая структура, которая решает вашу проблему, называется уменьшением размерности. Вы хотели бы проецировать данные из N измерений в 2 измерения, сохраняя при этом «важную информацию» в ваших данных. Наиболее подходящий метод зависит от распределения ваших данных, то есть N-мерного многообразия. PCA будет соответствовать плоскости, используя критерий наименьших квадратов. Это, вероятно , плохо работать на примере «рулет»: рулет .
Более современные методы включают в себя Kernel PCA, LLE, карты диффузии и разреженные словарные представления. Что касается сохранения расстояний, некоторые методы могут сохранять неевклидовы расстояния.
источник
Как упоминалось в предыдущем ответе, существует ряд методов уменьшения размерности, и важно учитывать, что вы пытаетесь представить - вас интересуют евклидовы меры расстояния? Или показатель сходства между образцами?
Для первых, PCA может быть уместным. Обычно используется с непрерывными измерениями, такими как измерения образцов (животных, растений и т. Д.). Я хотел бы взглянуть на более современные упоминания в более раннем ответе, хотя.
В последнем случае, когда вы можете пытаться сравнить сходство, используя неевклидову метрику расстояния, существует несколько хороших методов, таких как расположение основных компонентов (PCoA) и неметрическое многомерное масштабирование (NMDS). Пример того, когда вы могли бы использовать их, - это когда вы сравниваете экологические сообщества между различными областями, и у вас есть количество различных типов организмов, которые были найдены. Итак, ваши данные - это «подсчитать» данные. Существует ряд метрик сходства, таких как Жаккар, Соренсен, Брей-Кертис, которые позволяют эффективно оценить, насколько сходны сайты по своему составу организмов. PCoA и NMDS в основном позволяют построить образцы (участки) для представления экологического расстояния (сходства), и у вас есть оценка для участка на каждой оси.
Есть много хороших книг и других ресурсов для многомерного анализа. Ищите "Посвящение" в Google. Кроме того, есть пакет R под названием «веганский», который действительно хорош для выполнения большей части этой работы.
источник
Ваша проблема звучит как приложение из учебника для многомерного масштабирования . Хорошее введение можно найти здесь: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm
Конечно, вы можете попробовать PCA. Но PCA не намерен хранить информацию об относительном расстоянии в исходном пространстве.
источник