Я понимаю, что такое «проклятие размерности», и я выполнил некоторые задачи по оптимизации больших размеров и знаю проблему экспоненциальных возможностей.
Однако я сомневаюсь, существует ли «проклятие размерности» в большинстве данных реального мира (ну, давайте на минуту отложим изображения или видео, я думаю о таких данных, как демографические данные клиентов и данные о поведении покупок).
Мы можем собирать данные с тысячами объектов, но вряд ли даже невозможно, чтобы объекты могли полностью охватывать пространство с тысячами измерений. Вот почему методы уменьшения размеров так популярны.
Другими словами, весьма вероятно, что данные не содержат экспоненциального уровня информации, т. Е. Многие функции имеют высокую степень корреляции, и многие функции удовлетворяют правилам 80-20 (многие экземпляры имеют одинаковое значение).
В таком случае, я думаю, что такие методы, как KNN, все еще будут работать достаточно хорошо. (В большинстве книг «проклятие размерности» говорит, что измерение> 10 может быть проблематичным. В своих демонстрациях они используют равномерное распределение во всех измерениях, где энтропия действительно высока. Я сомневаюсь, что в реальном мире это когда-нибудь случится.)
Мой личный опыт работы с реальными данными заключается в том, что «проклятие размерности» не слишком сильно влияет на метод шаблона (такой как KNN), и в большинстве случаев измерения ~ 100 все равно будут работать.
Это правда для других людей? (Я работал с реальными данными в разных отраслях в течение 5 лет, никогда не наблюдал, что «все пары расстояний имеют одинаковые значения», как описано в книге.)
Ответы:
Эта статья (1) обсуждает благословение неоднородности как контрапункт проклятию размерности. Основная идея заключается в том, что данные неравномерно распределены в пространстве признаков, поэтому можно набрать обороты, определив способы организации данных.
(1) Педро Домингос, «Несколько полезных вещей о машинном обучении»
источник
Проклятие размерности в машинном обучении чаще всего является проблемой разрыва пустого пространства между несколькими точками данных, которые у вас есть. Низкий коллектор данных может сделать это еще хуже. Вот пример установки с 10000 сэмплами, где я пытаюсь сделать kNN с 1 соседом.
Вам не понравились полностью однородные распределения, поэтому я сделал это 2D-коллектором с меньшими размерами (уменьшенными на
scale
), разбросанными вокруг 2D-плоскости первых двух координат. Как это происходит, одно из меньших измерений является прогнозирующим (метка равна 1, когда это измерение положительно).Точность быстро падает с увеличением размеров.
Конечно, точность = 0,5 будет случайным предположением. С поверхностью принятия решений, которая более сложна, чем плоскость, все станет еще хуже.
Это похоже на то, что шары kNN слишком редки, чтобы быть полезными при исследовании гладкой гиперплоскости. С более высокими размерами они чувствуют себя все более одинокими.
С другой стороны, такие методы, как SVM, имеют глобальное представление и работают намного лучше.
источник
Рассмотрим, например, временные ряды (и изображения, и аудио). Показания датчиков (Интернет вещей) очень распространены.
Проклятие размерности встречается гораздо чаще, чем вы думаете. Там есть большая избыточность, но также много шума.
Проблема заключается в том, что многие люди просто избегают этих проблем с реальными данными и используют только одни и те же наборы данных UCI с повторной выборкой снова и снова.
источник
Есть замечательная статья Бреймана «Статистическое моделирование: две культуры» . Он объясняет две группы ученых, которые имеют дело с данными и как каждая из них смотрит на «размерность». Ответ на ваш вопрос «это зависит», в какой группе вы находитесь. Проверьте бумагу.
источник