Я читал, что «евклидово расстояние не является хорошим расстоянием в больших измерениях». Я думаю, что это утверждение как-то связано с проклятием размерности, но что именно? Кроме того, что такое «большие размеры»? Я применял иерархическую кластеризацию, используя евклидово расстояние со 100 объектами. До скольких функций «безопасно» использовать этот показатель?
241
Ответы:
Большое резюме неинтуитивных результатов в более высоких измерениях взято из « Несколько полезных вещей, которые нужно знать о машинном обучении » Педро Домингоса из Университета Вашингтона:
Статья также полна многих дополнительных жемчужин мудрости для машинного обучения.
Другое приложение, помимо машинного обучения, - поиск ближайших соседей: при интересующем наблюдении найдите его ближайших соседей (в том смысле, что это точки с наименьшим расстоянием от точки запроса). Но в больших измерениях возникает любопытное явление: соотношение между ближайшими и самыми дальними точками приближается к 1, то есть точки по существу становятся равномерно удаленными друг от друга. Это явление можно наблюдать для большого разнообразия метрик расстояния, но оно более выражено для евклидовой метрики, чем, скажем, манхэттенская метрика расстояния. Предпосылка поиска ближайшего соседа заключается в том, что «более близкие» точки более релевантны, чем «более дальние», но если все точки по существу равномерно удалены друг от друга, различие не имеет смысла.
От Чару С. Аггарвал, Александра Хиннебурга, Даниеля А. Кейма, « Об удивительном поведении метрик расстояния в многомерном пространстве »:
Авторы статьи «Удивительное поведение» затем предлагают использовать нормы с . Они дают некоторые результаты, которые демонстрируют, что эти «дробные нормы» демонстрируют свойство увеличивать контраст между самыми дальними и ближайшими точками. Это может быть полезно в некоторых контекстах, однако есть предостережение: эти «дробные нормы» не являются правильными метриками расстояния, потому что они нарушают неравенство треугольника. Если неравенство треугольника является важным качеством в ваших исследованиях, то дробные метрики не будут чрезвычайно полезны.Lk k<1
источник
Понятие евклидова расстояния, которое хорошо работает в двумерных и трехмерных мирах, изучаемых Евклидом, обладает некоторыми свойствами в более высоких измерениях, которые противоречат нашей (может быть, только моей ) геометрической интуиции, которая также является экстраполяцией двух и трех размеры.
Рассмотрим квадрат с вершинами в . Нарисуйте четыре круга единичного радиуса с центром в . Они «заполняют» квадрат, причем каждый круг касается сторон квадрата в двух точках, а каждый круг касается двух своих соседей. Например, окружность с центром в касается сторон квадрата в и и соседних окружностей в и . Затем нарисуйте маленький круг с центром в начале координат4×4 (±2,±2) (±1,±1) (1,1) (2,1) (1,2) (1,0) (0,1) это касается всех четырех кругов. Поскольку отрезок, конечными точками которого являются центры двух колеблющихся окружностей, проходит через точку осцилляции, легко проверить, что маленький кружок имеет радиус
и что он касается четырех больших окружностей в . Обратите внимание, что маленький круг «полностью окружен» четырьмя большими кругами и, таким образом, также полностью внутри квадрата. Отметим также, что точка лежит на малом круге. Обратите также внимание на то, что из начала координат нельзя «увидеть» точку на краю квадрата, поскольку линия визирования проходит через точку осцилляции двух окружностей с центром. вr2=2–√−1 (±r2/2–√,±r2/2–√) (r2,0) (2,0,0) (1,0,0) (1,1) и . То же самое для линий визирования в другие точки, где оси проходят через края квадрата.(1,−1)
Далее рассмотрим куб × × с вершинами в . Мы заполняем его осциллирующими сферами единичного радиуса с центром в , а затем помещаем меньшую осциллирующую сферу с центром в начале координат. Обратите внимание, что малая сфера имеет радиус а точка лежит на поверхности малой сферы. Но заметьте также, что в трех измерениях можно «увидеть» точку4×4×4 (±2,±2,±2) 8 (±1,±1,±1) r3=3–√−1<1 (r3,0,0) (2,0,0) от происхождения; нет больших больших сфер, блокирующих обзор, как это происходит в двух измерениях. Эти четкие линии обзора от начала координат до точек, где оси проходят через поверхность куба, встречаются и во всех больших измерениях.
Обобщая, мы можем рассмотреть мерный гиперкуб со стороны и заполнить его осциллирующими гиперсферами единичного радиуса с центром в а затем поместить «меньший» осциллирующая сфера радиуса в начале координат. Точка лежит на этой "меньшей" сфере. Но обратите внимание на что когда , и, следовательно, «меньшая» сфера имеет единичный радиус и, таким образом, действительно не заслуживает субрикета «меньшего» дляn 4 2n (±1,±1,…,±1)
Мой ответ на вопрос ОП "Кроме того, что такое" большие размеры "?" это .n≥9
источник
Это вопрос сигнал-шум . Евклидово расстояние, благодаря квадратным слагаемым, особенно чувствительно к шуму; но даже Манхэттенское расстояние и «дробные» (неметрические) расстояния страдают.
Я нашел исследования в этой статье очень поучительными:
В нем также рассматриваются наблюдения, сделанные, например, «Об удивительном поведении метрик расстояния в высокомерном пространстве» Аггарвала, Хиннебурга и Кейма, упомянутые @Pat. Но это также показывает, насколько синтетические эксперименты вводят в заблуждение и что на самом деле многомерные данные могут стать проще . Если у вас много (избыточного) сигнала, а новые размеры добавляют мало шума.
Последнее утверждение, вероятно, наиболее очевидно при рассмотрении дублирующих размеров. Отображение вашего набора данных увеличивает репрезентативную размерность, но вовсе не приводит к сбою евклидова расстояния. (Смотрите также: внутренняя размерность )x,y→x,y,x,y,x,y,x,y,...,x,y
Таким образом, в конце концов, это все еще зависит от ваших данных. Если у вас много бесполезных атрибутов, евклидово расстояние станет бесполезным. Если бы вы могли легко внедрить ваши данные в низкоразмерное пространство данных, то евклидово расстояние также должно работать в полноразмерном пространстве. В частности, для разреженных данных, таких как векторы TF из текста, это действительно тот случай, когда данные имеют гораздо меньшую размерность, чем предполагает модель векторного пространства.
Некоторые люди считают, что косинусное расстояние лучше, чем евклидово, по многомерным данным. Я так не думаю: косинусное расстояние и евклидово расстояние тесно связаны; поэтому мы должны ожидать, что они будут страдать от тех же проблем. Тем не менее, текстовые данные, где косинус популярен, обычно редки , и косинус быстрее в разреженных данных, поэтому для разреженных данных есть веские причины использовать косинус; и поскольку данные редки, внутренняя размерность намного меньше, чем размерность векторного пространства.
См. Также ответ, который я дал на предыдущий вопрос: https://stats.stackexchange.com/a/29647/7828.
источник
Лучше всего начать с чтения «Удивительного поведения дистанционных метрик в многомерном пространстве » Аггарвала, Хиннебурга и Кейма. Здесь есть действующая ссылка (pdf) , но она должна быть очень удобной для Google, если она сломается. Короче говоря, с ростом числа измерений относительное евклидово расстояние между точкой в наборе и ее ближайшим соседом, а также между этой точкой и ее самым дальним соседом изменяется некоторыми неочевидными способами. Будет ли это плохо влиять на ваши результаты, во многом зависит от того, чего вы пытаетесь достичь и каковы ваши данные.
источник
Евклидово расстояние очень редко является хорошим выбором для машинного обучения, и это становится более очевидным в более высоких измерениях. Это потому, что большую часть времени в машинном обучении вы имеете дело не с евклидовым метрическим пространством, а с вероятностным метрическим пространством, и поэтому вам следует использовать вероятностные и информационно-теоретические функции расстояния, например, основанные на энтропии.
Людям нравится евклидово пространство, потому что его легко осмыслить, кроме того, оно математически легко из-за свойств линейности, которые означают, что мы можем применять линейную алгебру. Если мы определяем расстояния в терминах, скажем, дивергенции Кульбака-Лейблера, то сложнее визуализировать и работать с математически.
источник
В качестве аналогии представьте круг с центром в начале координат. Очки распределяются равномерно. Предположим, что случайно выбранная точка находится в точке (x1, x2). Евклидово расстояние от начала координат ((x1) ^ 2 + (x2) ^ 2) ^ 0.5
Теперь представьте точки, равномерно распределенные по сфере. Та же самая точка (x1, x2) теперь вероятно будет (x1, x2, x3). Поскольку в четном распределении только в нескольких точках одна из координат равна нулю, мы будем считать, что [x3! = 0] для нашей случайно выбранной равномерно распределенной точки. Таким образом, наша случайная точка наиболее вероятна (x1, x2, x3), а не (x1, x2, 0).
Эффект этого таков: любая случайная точка теперь находится на расстоянии ((x1) ^ 2 + (x2) ^ 2 + (x3) ^ 2) ^ 0.5 от начала трехмерной сферы. Это расстояние больше, чем для случайной точки около начала двумерного круга. Эта проблема усугубляется в более высоких измерениях, поэтому мы выбираем показатели, отличные от евклидовых измерений, для работы с более высокими измерениями.
РЕДАКТИРОВАТЬ: есть поговорка, которую я сейчас вспоминаю: «Большая часть массы многомерного апельсина находится в коже, а не в мякоти», означая, что в более высоких измерениях равномерно распределенные точки находятся более «близко» (евклидово расстояние) к границе чем происхождение.
Примечание: Евклидово расстояние не слишком плохо для реальных проблем из-за «благословения неоднородности», которое в основном утверждает, что для реальных данных ваши данные, вероятно, НЕ будут распределяться равномерно в пространстве более высокого измерения, но будет занимать небольшое кластерное подмножество пространства. Это имеет смысл интуитивно: если вы измеряете 100 величин о людях, таких как рост, вес и т. Д., Равномерное распределение по пространству измерений просто не имеет смысла, например, человек с (рост = 65 дюймов, вес = 150 фунтов, avg_calorie_intake = 4000), что просто невозможно в реальном мире.
источник
Другой аспект этого вопроса заключается в следующем:
Очень часто большие проблемы в (машинном обучении / статистике) являются результатом чрезмерно ограниченных возможностей.
Это означает, что измерения НЕ являются независимыми (или некоррелированными), но евклидовы метрики предполагают (как минимум) некорреляцию и, следовательно, могут не дать наилучших результатов.
Таким образом, чтобы ответить на ваш вопрос, количество «больших измерений» связано с тем, сколько функций взаимозависимы, избыточны или чрезмерно ограничены.
Кроме того: Csiszar (et al.) Утверждает, что евклидовы метрики являются «естественными» кандидатами на умозаключения, когда характеристики имеют определенные формы.
источник
Эта статья также может вам помочь. «Улучшенное измерение подобия по косинусу». Посетите страницу https://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6. В этой статье объясняется, почему евклидово расстояние не является хорошим показателем в высоком измерении. данные и что является лучшей заменой евклидова расстояния в многомерных данных. Евклидово расстояние является нормой L2, и, уменьшая значение k в норме Lk, мы можем облегчить проблему расстояния в многомерных данных. Вы также можете найти ссылки в этой статье.
источник