Основная идея к-ближайших соседей учитывает ближайших точек и определяет классификацию данных большинством голосов. Если это так, то он не должен иметь проблемы в более высоких размерности данных , поскольку такие методы , как н.п. чувствительное хеширование могут эффективно находить ближайшие сосед.
Кроме того, выбор функции с сетями байесовскими может уменьшить размерность данных и сделать обучение более легким.
Тем не менее, этот обзорный документ Джона Лафферти в области статистического обучения указывает на то, что непараметрическое обучение в многомерных пространствах признаков все еще остается проблемой и не решено.
Что не так?
Ответы:
Эта проблема известна как проклятие размерности . В основном, когда вы увеличиваете количество измерений, , точки в пространстве обычно стремятся стать далекими от всех других точек. Это делает разделение пространства (например, необходимое для классификации или кластеризации) очень трудным.d
Вы можете увидеть это для себя очень легко. Я сгенерировал случайных мерных точек в единичном гиперкубе при 20 равномерно выбранных значениях из . Для каждого значения я вычислил расстояние от первой точки до всех остальных и взял среднее значение этих расстояний. Построив это, мы можем видеть, что среднее расстояние увеличивается с размерностью, хотя пространство, в котором мы генерируем точки в каждом измерении, остается тем же.д д 1..1000 д50 d d 1..1000 d
Среднее расстояние и размерность
источник
Не полный ответ, но страница википедии, на которую вы ссылались, гласит:
Вероятность этого возрастает в присутствии пространственных пространственных объектов.
источник