Как спроектировать многомерное пространство в двухмерную плоскость?

11

У меня есть набор точек данных в N-мерном пространстве. Кроме того, у меня также есть центроид в этом же N-мерном пространстве. Существуют ли какие-либо подходы, которые могут позволить мне проецировать эти точки данных в двумерное пространство, сохраняя информацию об их относительном расстоянии в исходном пространстве. PCA правильный?

бит вопрос
источник
1
Если вы хотите попытаться сохранить расстояния, моей первой мыслью было бы многомерное масштабирование самих расстояний (что связано с PCA), но, поскольку, как я понимаю, у вас есть местоположения, а не только расстояния, PCA должно работать для этого. ,
Glen_b
1
@Glen_b, ключевой момент не в том, что MDS для ввода расстояний и PCA для ввода координат, а в том , что итеративный MDS подходит для нескольких измерений, в то время как PCA сохраняет несколько измерений. Таким образом, MDS сохраняет расстояния несколько лучше, чем классические PCA. Ответ на вопрос: да, PCA подходит, но MDS подходит больше.
ttnphns
1
Это в значительной степени то, что изучается в области вложения метрического пространства , то есть как вы можете уменьшить размерность ваших данных при минимальном искажении расстояний.
Побитовый

Ответы:

6

Общая структура, которая решает вашу проблему, называется уменьшением размерности. Вы хотели бы проецировать данные из N измерений в 2 измерения, сохраняя при этом «важную информацию» в ваших данных. Наиболее подходящий метод зависит от распределения ваших данных, то есть N-мерного многообразия. PCA будет соответствовать плоскости, используя критерий наименьших квадратов. Это, вероятно , плохо работать на примере «рулет»: рулет .

Более современные методы включают в себя Kernel PCA, LLE, карты диффузии и разреженные словарные представления. Что касается сохранения расстояний, некоторые методы могут сохранять неевклидовы расстояния.

Leeor
источник
2
Важно отметить, что методы «уменьшения размерности» обычно не поддерживают «информацию об относительном расстоянии». То, делают они это или нет, зависит частично от метода и частично от предполагаемого «расстояния».
whuber
2

Как упоминалось в предыдущем ответе, существует ряд методов уменьшения размерности, и важно учитывать, что вы пытаетесь представить - вас интересуют евклидовы меры расстояния? Или показатель сходства между образцами?

Для первых, PCA может быть уместным. Обычно используется с непрерывными измерениями, такими как измерения образцов (животных, растений и т. Д.). Я хотел бы взглянуть на более современные упоминания в более раннем ответе, хотя.

В последнем случае, когда вы можете пытаться сравнить сходство, используя неевклидову метрику расстояния, существует несколько хороших методов, таких как расположение основных компонентов (PCoA) и неметрическое многомерное масштабирование (NMDS). Пример того, когда вы могли бы использовать их, - это когда вы сравниваете экологические сообщества между различными областями, и у вас есть количество различных типов организмов, которые были найдены. Итак, ваши данные - это «подсчитать» данные. Существует ряд метрик сходства, таких как Жаккар, Соренсен, Брей-Кертис, которые позволяют эффективно оценить, насколько сходны сайты по своему составу организмов. PCoA и NMDS в основном позволяют построить образцы (участки) для представления экологического расстояния (сходства), и у вас есть оценка для участка на каждой оси.

Есть много хороших книг и других ресурсов для многомерного анализа. Ищите "Посвящение" в Google. Кроме того, есть пакет R под названием «веганский», который действительно хорош для выполнения большей части этой работы.

mtreg
источник
0

Ваша проблема звучит как приложение из учебника для многомерного масштабирования . Хорошее введение можно найти здесь: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm

Конечно, вы можете попробовать PCA. Но PCA не намерен хранить информацию об относительном расстоянии в исходном пространстве.

Вэйвэй
источник