Я много раз слышал о проклятии размерности, но почему-то до сих пор не могу понять идею, все туманно.
Может ли кто-нибудь объяснить это наиболее интуитивно понятным способом, как вы объясните это ребенку, чтобы я (и другие, сбитые с толку, как я) могли понять это навсегда?
РЕДАКТИРОВАТЬ:
Теперь предположим, что ребенок как-то слышал о кластеризации (например, они знают, как кластеризовать свои игрушки :)). Как увеличение размерности усложнит кластеризацию их игрушек?
Например, раньше они учитывали только форму игрушки и цвет игрушки (одноцветные игрушки), но теперь нужно также учитывать размер и вес игрушек. Почему ребенку сложнее найти похожие игрушки?
РЕДАКТИРОВАТЬ 2
Для обсуждения мне нужно пояснить, что: «Почему ребенку сложнее найти похожие игрушки», я также имею в виду, почему понятие расстояния теряется в многомерных пространствах?
Ответы:
Возможно, ребенку понравится есть печенье, поэтому давайте предположим, что у вас есть целый грузовик с печеньем другого цвета, другой формы, другого вкуса, другой цены ...
Если ребенок должен выбрать, но принять во внимание только одну характеристику, например вкус, то у него есть четыре возможности: сладкое, соленое, кислое, горькое, поэтому ребенку нужно всего лишь попробовать четыре печенья, чтобы найти то, что ему больше всего нравится.
Если ребенку нравятся сочетания вкуса и цвета, и есть 4 (я довольно оптимистичен здесь :-)) разных цветов, то ему уже приходится выбирать из 4х4 разных типов;
Если он хочет, кроме того, принять во внимание форму печенья и есть 5 различных форм, то ему придется попробовать печенье 4x4x5 = 80
Мы могли бы продолжать, но после того, как съели все эти печенья, у него уже могла быть боль в животе ... прежде чем он мог сделать свой лучший выбор :-) Помимо боли в животе, может быть действительно трудно вспомнить различия во вкусе каждого печенья.
Как вы можете видеть (@Almo), большинство (все?) Вещей усложняются по мере увеличения числа измерений, это относится и к взрослым, и к компьютерам, и к детям.
источник
Аналогия, которую я люблю использовать для проклятия размерности, немного более геометрическая, но я надеюсь, что она все еще достаточно полезна для вашего ребенка.
Легко охотиться на собаку и, возможно, поймать ее, если она бегает по равнине (два измерения). Гораздо сложнее охотиться на птиц, у которых теперь есть дополнительное измерение, в которое они могут перемещаться. Если мы притворяемся, что призраки - это существа более высокого измерения (сродни Сфере, взаимодействующей с А. Квадратом во Флатландии ), их еще сложнее поймать. :)
источник
Хорошо, давайте проанализируем пример того, как ребенок группирует свои игрушки.
Представьте, что у ребенка всего 3 игрушки:
Давайте сделаем следующую начальную гипотезу относительно того, как можно сделать игрушку:
Теперь мы можем иметь (num_colors * num_shapes) = 3 * 3 = 9 возможных кластеров.
Мальчик собирал игрушки следующим образом:
Используя только эти 2 измерения (цвет, форму), мы имеем 2 непустых кластера: так что в этом первом случае 7/9 ~ 77% нашего пространства пусто.
Теперь давайте увеличим количество измерений, которые ребенок должен рассмотреть. Мы также выдвигаем следующую гипотезу о том, как можно сделать игрушку:
Если мы хотим сгруппировать наши игрушки СЕЙЧАС, у нас есть (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 возможных кластеров.
Мальчик собирал игрушки следующим образом:
Используя текущие 4 измерения (форма, цвет, размер, вес), только 3 кластера не пустые, поэтому в этом случае 897/900 ~ 99,7% пространства пусто.
Это пример того, что вы найдете в Википедии ( https://en.wikipedia.org/wiki/Curse_of_dimensionality ):
... когда размерность увеличивается, объем пространства увеличивается настолько быстро, что доступные данные становятся разреженными.
Редактировать: я не уверен, что мог бы действительно объяснить ребенку, почему расстояние иногда не работает в многомерных пространствах, но давайте попробуем продолжить наш пример ребенка и его игрушек.
Рассмотрим только 2 первые особенности {цвет, форма}, все согласны с тем, что синий шар больше похож на синий фризбе, чем на зеленый куб.
Теперь давайте добавим еще 98 функций (скажем: размер, вес, day_of_production_of_the_toy, материал, мягкость, day_in_which_the_toy_was_bought_by_daddy, цена и т. Д.): Ну, мне будет все труднее судить, какая игрушка похожа на какую.
Так:
Если вы слушаете меня, хорошая лекция - «Несколько полезных вещей, которые нужно знать о машинном обучении» ( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ), в частности, в пункте 6 вид рассуждений.
Надеюсь это поможет!
источник
Я наткнулся на следующую ссылку, которая предоставляет очень интуитивное (и подробное) объяснение проклятия размерности: http://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/
В нескольких словах эта статья выводит (интуитивно), что добавление большего количества функций (т.е. увеличение размерности нашего пространства признаков) требует сбора большего количества данных. На самом деле объем данных, которые нам нужно собрать (чтобы избежать переоснащения), растет экспоненциально по мере добавления новых измерений.
У этого также есть хорошие иллюстрации как эта:
источник
Проклятие размерности несколько нечетко по определению, поскольку описывает разные, но связанные вещи в разных дисциплинах. Следующее иллюстрирует проклятие размерности машинного обучения:
Предположим, у девочки есть десять игрушек, из которых она любит только те, которые выделены курсивом:
Теперь ее отец хочет подарить ей новую игрушку на день рождения и хочет, чтобы она ей понравилась. Он очень много думает о том, что общего у игрушек, которые ей нравятся, и, наконец, приходит к решению. Он дает своей дочери разноцветные головоломки. Когда ей не нравится, он отвечает: «Почему тебе это не нравится? Он содержит букву w. »
Отец пал жертвой проклятия размерности (и оптимизации в выборке). Рассматривая буквы, он двигался в 26-мерном пространстве, и поэтому очень вероятно, что он найдет какой-то критерий, разделяющий игрушки, которые нравятся дочери. Это не обязательно должен быть критерий, состоящий из одной буквы, как в примере, но это также может быть что-то вроде
Чтобы адекватно определить, являются ли письма хорошим критерием для определения того, какие игрушки любит его дочь, отец должен знать предпочтения своей дочери в отношении огромного количества игрушек… - или просто использовать свой мозг и учитывать только те параметры, которые действительно могут повлиять на дочь. мнение.
¹ порядок величины: , если бы все буквы были одинаково вероятны и он не учел бы многократное вхождение букв.226
источник
Объем гиперкуба, конечно, равен 1, если измерять в единицах. Однако объем гиперсферы уменьшается с ростом n.1n
Если внутри гиперсферы было что-то интересное, то все труднее увидеть это в более высоких измерениях. В мерном случае гиперсфера исчезает! Это проклятие.∞
ОБНОВЛЕНИЕ: Кажется, что некоторые люди не получили связь со статистикой. Вы можете увидеть взаимосвязь, если представите, что выбираете случайную точку внутри гиперкуба. В двумерном случае вероятность того, что эта точка находится внутри окружности (гиперсферы), равна , в трехмерном случае - и т. Д. В мерном случае вероятность равна нулю.π / 6 ∞π/4 π/6 ∞
источник
Я: «Я думаю о маленьком коричневом животном, начинающемся с« S ». Что это?»
Она: "Белка!"
Я: «Хорошо, тяжелее. Я думаю о маленьком коричневом животном. Что это?»
Она: "Все еще белка?"
Я нет"
Она: "Крыса, мышь, полевка?
Я: "Нет"
Она: "Ммм ... дай мне подсказку"
Я: «Нет, но я сделаю кое-что лучше: я позволю вам ответить на вопрос CrossValidated»
Она: [стонет]
Я: «Вопрос в том, что такое проклятие размерности? И вы уже знаете ответ»
Она: "Я делаю?"
Я: «Да. Почему первое животное было сложнее угадать, чем второе?»
Она: "Потому что есть больше маленьких коричневых животных, чем маленьких коричневых животных, начинающихся с 'S'?"
Я: «Верно. И это проклятие размерности. Давайте играть снова».
Она: "ОК"
Я: «Я думаю о чем-то. Что это?»
Она: «Нет, честно. Эта игра очень сложная»
Я: «Верно. Вот почему они называют это проклятием. Вы просто не можете преуспеть, не зная вещей, о которых я склонен думать».
источник
Предположим, вы хотите отправить товар. Вы хотите тратить как можно меньше места при упаковке товара (т. Е. Оставлять как можно меньше пустого места), потому что расходы по доставке связаны с объемом конверта / коробки. Контейнеры в вашем распоряжении (конверты, коробки) имеют прямые углы, поэтому мешки и т. Д.
Первая проблема: отправьте ручку («линию») - вы можете построить вокруг нее коробку без потери места.
Вторая проблема: отправить компакт-диск («сфера»). Вам нужно положить его в квадратный конверт. В зависимости от того, сколько лет ребенку, она может подсчитать, сколько конверта останется пустым (и при этом знать, что есть компакт-диски, а не только загружаемые файлы ;-)).
Третья проблема: доставить футбольный мяч (футбол, и он должен быть раздут!). Вам нужно будет положить его в коробку, и некоторое пространство останется пустым. Это пустое пространство будет более высокой долей общего объема, чем в примере с CD.
В этот момент моя интуиция, использующая эту аналогию, прекращается, потому что я не могу представить 4-е измерение.
РЕДАКТИРОВАТЬ: аналогия является наиболее полезной (если вообще) для непараметрической оценки, которая использует наблюдения "локальные" для интересующей точки, чтобы оценить, скажем, плотность или функцию регрессии в этой точке. Проклятие размерности состоит в том, что в более высоких измерениях нужно либо гораздо большее соседство для данного числа наблюдений (что делает понятие локальности сомнительным), либо большой объем данных.
источник
Мой 6-летний больше на стихе исследования первопричины, как в "но откуда весь этот газ во вселенной взялся?" ... хорошо, я буду вообразить, что Ваш ребенок понимает "более высокие измерения", который кажется очень вряд ли для меня.
А теперь иди забери свою комнату, папа должен работать.
источник
Есть классическая, учебная, математическая задача, которая показывает это.
Вы бы предпочли зарабатывать (вариант 1) 100 копеек в день, каждый день в течение месяца или (вариант 2) копейки, удваивающиеся каждый день в течение месяца? Вы можете задать этот вопрос своему ребенку.
Если вы выберете вариант 1,
в день 1 вы получите 100 копеек, в день 2 вы получите 100 копеек, в день 3 вы получите 100 копеек ... в день 30 вы получите 100 копеек.
общее количество копеек определяется путем умножения количества дней на количество копеек в день:
Если вы выберете вариант 2:
в день 1 вы получаете 1 пенни, в день 2 вы получаете 2 копейки в день 3, вы получаете 4 копейки в день 4, вы получаете 8 копеек в день 5, вы получаете 16 копеек ... в день 30 вы получаете 1 073 741 824 пенсы
Любой с жадностью выберет большее число. Простую жадность легко найти, и она требует мало размышлений. Нечестивые животные легко способны на жадность - в этом преуспели насекомые. Люди способны на гораздо большее.
Если вы начнете с одной копейки вместо ста, жадность будет проще, но если вы поменяете силу для многочлена, она будет более сложной. Комплекс также может означать гораздо более ценный.
О «проклятии»
«Наиболее важной» математической операцией, связанной с физикой, является инверсия матриц. Он управляет решениями систем уравнений в частных производных, наиболее распространенными из которых являются уравнения Максвелла (электромагнетизм), уравнения Навье-Стокса (жидкости), уравнение Пуассона (диффузионный перенос) и вариации закона Хукса (деформируемые твердые тела). У каждого из этих уравнений есть курсы колледжа, построенные вокруг них.
Проклятие существует, потому что, если оно преодолено, в конце радуги окажется горшок с золотой ценностью. Это не легко - великие умы решительно занялись проблемой.
ссылка:
источник
Fcop предложил отличную аналогию с cookie-файлами, но охватил только аспект плотности выборки проклятия размерности. Мы можем расширить эту аналогию до объема выборки или расстояния, распределив одинаковое количество файлов cookie Fcop, скажем, в десяти ящиках в одной строке, 10х10 ячеек на столе и 10х10х10 в пачке. Затем вы можете показать, что для того, чтобы съесть такую же долю печенья, ребенку придется открывать все больше ящиков.
На самом деле речь идет об ожиданиях, но для иллюстрации рассмотрим подход «наихудшего сценария».
Если есть 8 файлов cookie, и мы хотим съесть половину, то есть 4, из 10 коробок в худшем случае нам нужно всего лишь открыть 6 коробок. Это 60% - примерно половина тоже. С 10х10 (опять же в худшем случае) - 96 (%). А из 10х10х10 - 996 (99,6%). Это почти все из них!
Может быть, аналогия с кладовой и пройденное расстояние между комнатами будет лучше, чем коробки здесь.
источник