Это часто упоминается, когда упоминается проклятие размерности и идет
(формула справа называется относительным контрастом)
Результат теоремы показывает, что разница между максимальным и минимальным расстояниями до заданной точки запроса не увеличивается так же быстро, как расстояние до ближайшей к любой точке в многомерном пространстве. Это делает запрос на близость бессмысленным и нестабильным, потому что между ближайшим и самым дальним соседом существует плохая дискриминация.
Тем не менее, если кто-то действительно пытается вычислить относительный контраст для значений выборки, то есть он берет вектор, содержащий очень маленькие значения, и вычисляет расстояние до нулевого вектора и делает то же самое для вектора, содержащего гораздо большие значения, а затем сравнивает значения для размерность 3 и размерность в раз больше, вы увидите, что, хотя соотношение действительно уменьшается, изменение настолько исчезающе мало, что не имеет значения для числа измерений, фактически используемых на практике (или кто-нибудь знает кого-нибудь, кто работает с данными, имеющими размеры, размер числа Грэма - который, я бы предположил, - это размер, необходимый для того, чтобы описанный эффект действительно соответствовал статье - я думаю, что нет).
Как упоминалось ранее, эту теорему очень часто цитируют в поддержку утверждения, что измерение близости на основе евклидова пространства является плохой стратегией в многомерном пространстве, считают сами авторы, и тем не менее предложенное поведение фактически не имеет места, что заставляет меня думаю, что эта теорема была введена в заблуждение.
Пример: с d
измерением
a=np.ones((d,)) / 1e5
b=np.ones((d,)) * 1e5
dmin,dmax=norm(a), norm(b)
(dmax-dmin)/dmin
для d = 3
9999999999.0
для d = 1e8
9999999998.9996738
И с 1e1 вместо 1e5 (скажем, данные нормализованы)
для d = 3
99.0
для d = 1e8
98.999999999989527
Ответы:
Нет, теорема не вводит в заблуждение. Это, конечно, может быть применено неправильно, но это верно для любой теоремы.
Вот простой скрипт MATLAB, чтобы продемонстрировать, как он работает:
Выход:
В моем коде res1 и res2 - два выражения в вашем уравнении из статьи: одно для дисперсии, а второе для контраста.
Вы можете видеть, как оба стремятся к нулю, как и предполагалось, когда размеры увеличиваются от 1 до 10000.
источник
X
происходит дисперсия, сводящаяся к нулю?