Если у меня есть 50-мерный гиперкуб. И я определяю его границу как или где - размерность гиперкуба. Тогда вычисление доли точек на границе гиперкуба составит . Что это значит? Значит ли это, что остальное пространство пусто? Если точек находятся на границе, то точки внутри куба не должны быть равномерно распределены?
machine-learning
math
Рохит Кумар Сингх
источник
источник
Ответы:
Говорить о « точек в гиперкубе » немного вводит в заблуждение, поскольку гиперкуб содержит бесконечно много точек. Давайте вместо этого поговорим о томе.99%
Объем гиперкуба является произведением длины его сторон. Для 50-мерного единичного гиперкуба мы получаемTotal volume=1×1×⋯×150 times=150=1.
Теперь давайте исключим границы гиперкуба и посмотрим на « внутренность » (я поставил это в кавычки, потому что математический термин « интерьер» имеет совершенно другое значение). Мы оставляем только те точкиx=(x1,x2,…,x50) которые удовлетворяют
0.05<x1<0.95 and 0.05<x2<0.95 and … and 0.05<x50<0.95.
Каков объем этого «интерьера»? Что ж, «внутреннее пространство» снова является гиперкубом, а длина каждой стороны равна0.9 (=0.95−0.05 ... это помогает представить это в двух и трех измерениях). Таким образом, объемInterior volume=0.9×0.9×⋯×0.950 times=0.950≈0.005.
Сделайте вывод, что объем «границы» (определяется как единичный гиперкуб безинтерьер ) 1−0.950≈0.995.
Это показывает, что99.5% объема 50-мерного гиперкуба сосредоточено на его « границе ».
Продолжение : Игнатий поднял интересный вопрос о том, как это связано с вероятностью. Вот пример.
Допустим, вы придумали модель (машинного обучения), которая прогнозирует цены на жилье на основе 50 входных параметров. Все 50 входных параметров независимы и равномерно распределены между0 и 1 .
Допустим, ваша модель работает очень хорошо, если ни один из входных параметров не является экстремальным: пока каждый входной параметр остается в диапазоне от0,05 до 0,95 , ваша модель почти идеально прогнозирует цену на жилье. Но если один или несколько входных параметров являются экстремальными (меньше 0,05 или больше 0,95 ), прогнозы вашей модели абсолютно ужасны.
Любой заданный входной параметр является экстремальным с вероятностью всего10 % . Так ясно, что это хорошая модель, верно? Нет! Вероятность того, что хотя бы один из 50 параметров является экстремальным, составляет 1 - 0,950≈ 0,995.
Так что в 99,5 % случаев прогноз вашей модели ужасен.
Эмпирическое правило. В больших измерениях экстремальные наблюдения являются правилом, а не исключением.
источник
Вы можете видеть образец ясно даже в более низких измерениях.
1-е измерение Возьмем линию длиной 10 и границу 1. Длина границы равна 2, а внутренняя 8, 1: 4.
2-е измерение. Возьмите квадрат со стороны 10 и снова границу 1. Площадь границы 36, внутренняя 64, соотношение 9:16.
3-е измерение. Одинаковая длина и граница. Объем границы 488, внутренняя часть 512, 61:64 - уже граница занимает почти столько же места, сколько внутренняя.
4-е измерение, теперь граница 5904, а внутренняя 4096 - граница больше.
Даже при меньшей и меньшей длине границы, поскольку размер увеличивается, объем границы всегда будет превышать внутреннюю часть.
источник
Лучший способ «понять» это (хотя это ИМХО для человека невозможно) - сравнить объемы n-мерного шара и n-мерного куба. С ростом n (размерности) весь объем шара «просачивается» и концентрируется в углах куба. Это полезный общий принцип, который нужно помнить в теории кодирования и ее приложениях.
Лучшее объяснение этого в учебнике содержится в книге Ричарда У. Хэмминга «Теория кодирования и информации» (3.6 Геометрический подход, стр. 44).
Короткая статья в Википедии даст вам краткое изложение того же самого , если иметь в виду , что объем п-мерного единичного куба всегда 1 ^ п.
Надеюсь, это поможет.
источник