Кто-нибудь использует метрики или для кластеризации, а не ?
Аггарвал и др.
Об удивительном поведении метрик расстояния в многомерном пространстве
сказали (в 2001 г.), что
неизменно предпочтительнее, чем евклидова метрика расстояния для приложений анализа больших размеров данных.
и утверждал, что или могут быть еще лучше.
Причины использования или могут быть теоретическими или экспериментальными, например, чувствительность к выбросам / статьям Кабана или программы, работающие на реальных или синтетических данных (воспроизводимо, пожалуйста). Пример или картина могут помочь моей интуиции.
Этот вопрос является продолжением ответа Боба Дарранта на « Когда ближайший сосед значим сегодня» . По его словам, выбор будет зависеть как от данных, так и от приложения; тем не менее, отчеты о реальном опыте были бы полезны.
Примечания добавлены во вторник, 7 июня:
Я наткнулся на «Статистический анализ данных на основе L1-нормы и связанных с ним методов», Dodge ed., 2002, 454p, isbn 3764369205 - десятки конференционных докладов.
Кто-нибудь может проанализировать концентрацию на расстоянии для экспоненциальных функций iid? Одна из причин экспонент заключается в том, что ; другое (не экспертное) - это распределение максимальной энтропии 0; в-третьих, некоторые реальные наборы данных, в частности SIFT, выглядят примерно экспоненциально.
Ответы:
Ключевым моментом здесь является понимание «проклятия размерности», на которое ссылается статья. Из википедии: когда количество измерений очень велико,
В результате, становится все сложнее думать о том, какие точки близки к каким другим точкам, потому что все они более или менее одинаково далеко друг от друга. Это проблема в первой статье, на которую вы ссылаетесь.
Проблема с высоким p состоит в том, что он подчеркивает большие значения - пять квадратов и четыре квадрата - это девять единиц друг от друга, но один квадрат и два квадрата - только три единицы. Таким образом, большие размеры (вещи в углах) доминируют во всем, и вы теряете контраст. Так что этой инфляции больших расстояний - это то, чего вы хотите избежать. При дробном p акцент делается на различиях в меньших измерениях - измерениях, которые на самом деле имеют промежуточные значения - что дает вам больше контраста.
источник
Существует бумага с использованием метрики Lp с p между 1 и 5, которую вы можете посмотреть:
Аморим Р.К., Миркин Б. Метрика Минковского. Взвешивание признаков и инициализация аномального кластера в кластеризации K-средних. Распознавание образов. 45 (3), с. 1061-1075, 2012
Загрузите, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a040b45.pdf
источник
источник