Что это значит, когда мы говорим, что большинство точек в гиперкубе находятся на границе?

Если у меня есть 50-мерный гиперкуб. И я определяю его границу как или где - размерность гиперкуба. Тогда вычисление доли точек на границе гиперкуба составит . Что это значит? Значит ли это, что остальное пространство пусто? Если точек находятся на границе, то точки внутри куба не должны быть равномерно распределены? $0<x_j<0.05$ $0.95<x_j<1$ $x_j$ $0.995$ $99\%$

machine-learning math Рохит Кумар Сингх
источник

Нет, это означает, что периферия более просторная, а эффект соразмерен с размерностью. Это несколько нелогично. Это явление имеет последствия для распределения расстояния между случайными парами узлов, которые становятся релевантными, когда вы хотите кластеризовать или вычислять ближайших соседей в многомерных пространствах.

Эмре

Вычислите, какая доля точек на отрезке линии находится вблизи его границы. Затем указывает на квадрат. Затем указывает на куб. Что вы можете сказать о них?

user253751

Ответы:

Говорить о « точек в гиперкубе » немного вводит в заблуждение, поскольку гиперкуб содержит бесконечно много точек. Давайте вместо этого поговорим о томе. $99\%$

Объем гиперкуба является произведением длины его сторон. Для 50-мерного единичного гиперкуба мы получаем

Total volume = \underset{50 times}{\underset{⏟}{1 \times 1 \times \dots \times 1}} = 1^{50} = 1.

$\text{Total volume} = \underbrace{1 \times 1 \times \dots \times 1}_{50 \text{ times}} = 1^{50} = 1.$

Теперь давайте исключим границы гиперкуба и посмотрим на « внутренность » (я поставил это в кавычки, потому что математический термин « интерьер» имеет совершенно другое значение). Мы оставляем только те точки $x = (x_1, x_2, \dots, x_{50})$ которые удовлетворяют

0.05 < x_{1} < 0.95 and 0.05 < x_{2} < 0.95 and \dots and 0.05 < x_{50} < 0.95.

$0.05 < x_1 < 0.95 \,\text{ and }\, 0.05 < x_2 < 0.95 \,\text{ and }\, \dots \,\text{ and }\, 0.05 < x_{50} < 0.95.$ Каков объем этого «интерьера»? Что ж, «внутреннее пространство» снова является гиперкубом, а длина каждой стороны равна

0.9

$0.9$ (

= 0.95 - 0.05

$=0.95 - 0.05$ ... это помогает представить это в двух и трех измерениях). Таким образом, объем

Interior volume = \underset{50 times}{\underset{⏟}{0.9 \times 0.9 \times \dots \times 0.9}} = {0.9}^{50} \approx 0.005.

$\text{Interior volume} = \underbrace{0.9 \times 0.9 \times \dots \times 0.9}_{50 \text{ times}} = 0.9^{50} \approx 0.005.$ Сделайте вывод, что объем «границы» (определяется как единичный гиперкуб безинтерьер )

1 - {0.9}^{50} \approx 0.995.

$1 - 0.9^{50} \approx 0.995.$

Это показывает, что $99.5\%$ объема 50-мерного гиперкуба сосредоточено на его « границе ».

Продолжение : Игнатий поднял интересный вопрос о том, как это связано с вероятностью. Вот пример.

Допустим, вы придумали модель (машинного обучения), которая прогнозирует цены на жилье на основе 50 входных параметров. Все 50 входных параметров независимы и равномерно распределены между $0$ и $1$ .

Допустим, ваша модель работает очень хорошо, если ни один из входных параметров не является экстремальным: пока каждый входной параметр остается в диапазоне от $0.05$ до $0.95$ , ваша модель почти идеально прогнозирует цену на жилье. Но если один или несколько входных параметров являются экстремальными (меньше $0.05$ или больше $0.95$ ), прогнозы вашей модели абсолютно ужасны.

Любой заданный входной параметр является экстремальным с вероятностью всего $10\%$ . Так ясно, что это хорошая модель, верно? Нет! Вероятность того, что хотя бы один из $50$ параметров является экстремальным, составляет $1 - 0.9^{50} \approx 0.995.$ Так что в $99.5\%$ случаев прогноз вашей модели ужасен.

Эмпирическое правило. В больших измерениях экстремальные наблюдения являются правилом, а не исключением.

Элиас Штреле
источник

Стоит использовать цитату ОП "Означает ли это, что остальное пространство пусто?" и отвечая: нет, это означает, что остальное пространство относительно мало . , , Или похоже на ваши собственные слова. , ,

Нил Слэйтер

Действительно хорошее объяснение термина «проклятие размерности»

игнатий

Интересно, правильно ли следующее: если взять этот пример, если набор функций равномерно распределен вдоль [0,1] в каждом из 50 измерений, (99,5% -0,5%) = 99% объема (функция гиперкуба пробел) фиксирует только 10% значений каждого объекта

ignatius

«Любой заданный входной параметр является экстремальным с вероятностью всего 5%». Я думаю, что эта вероятность составляет 10%.

Родви

@ Родви: Вы правы, конечно, спасибо! Починил это.

Элиас Стреле

Вы можете видеть образец ясно даже в более низких измерениях.

1-е измерение Возьмем линию длиной 10 и границу 1. Длина границы равна 2, а внутренняя 8, 1: 4.

2-е измерение. Возьмите квадрат со стороны 10 и снова границу 1. Площадь границы 36, внутренняя 64, соотношение 9:16.

3-е измерение. Одинаковая длина и граница. Объем границы 488, внутренняя часть 512, 61:64 - уже граница занимает почти столько же места, сколько внутренняя.

4-е измерение, теперь граница 5904, а внутренняя 4096 - граница больше.

Даже при меньшей и меньшей длине границы, поскольку размер увеличивается, объем границы всегда будет превышать внутреннюю часть.

HP Williams
источник

Лучший способ «понять» это (хотя это ИМХО для человека невозможно) - сравнить объемы n-мерного шара и n-мерного куба. С ростом n (размерности) весь объем шара «просачивается» и концентрируется в углах куба. Это полезный общий принцип, который нужно помнить в теории кодирования и ее приложениях.

Лучшее объяснение этого в учебнике содержится в книге Ричарда У. Хэмминга «Теория кодирования и информации» (3.6 Геометрический подход, стр. 44).

Короткая статья в Википедии даст вам краткое изложение того же самого , если иметь в виду , что объем п-мерного единичного куба всегда 1 ^ п.

Надеюсь, это поможет.

Алекс Федотов
источник