Я пытаюсь найти хороший аргумент о том, почему в машинном обучении можно использовать расстояние Манхэттена над евклидовым расстоянием .
До сих пор я нашел хороший аргумент в этой лекции в Массачусетском технологическом институте .
В 36:15 вы можете увидеть на слайдах следующее утверждение:
«Обычно используют евклидову метрику; Манхэттен может быть уместен, если разные размеры не сопоставимы ».
Вскоре после того, как профессор говорит, что, поскольку число ног рептилии варьируется от 0 до 4 (в то время как другие признаки являются бинарными, изменяются только от 0 до 1), функция «количество ног» в конечном итоге будет иметь гораздо большее вес, если используется евклидово расстояние. Конечно же, это действительно правильно. Но эта проблема также может возникнуть при использовании манхэттенского расстояния (только то, что проблема будет слегка смягчена, потому что мы не возводим в квадрат разницу, как на евклидовом расстоянии).
Лучшим способом решения вышеуказанной проблемы было бы нормализовать функцию «количество ножек», чтобы ее значение всегда находилось в диапазоне от 0 до 1.
Поэтому, поскольку есть лучший способ решения проблемы, мне казалось, что аргументу об использовании манхэттенского расстояния в этом случае не хватало более сильной точки зрения, по крайней мере, на мой взгляд.
Кто-нибудь на самом деле знает, почему и когда кто-то будет использовать расстояние Манхэттена над евклидовым? Кто-нибудь может привести пример, в котором использование манхэттенского расстояния дало бы лучшие результаты?
Я могу предложить пару идей из Википедии .
источник
Я нашел кое-что, что могло бы быть интуицией в этой проблеме, в практическом машинном обучении с Scikit-Learn и TensorFlow.
источник
Использование расстояния Манхэттена во многом зависит от типа системы координат, которую использует ваш набор данных. В то время как евклидово расстояние дает самое короткое или минимальное расстояние между двумя точками, у Манхэттена есть определенные реализации.
Например, если бы мы использовали набор данных Chess, то использование манхэттенского расстояния будет более подходящим, чем евклидово расстояние. Другое использование будет, когда вы хотите узнать расстояние между домами, которые находятся в нескольких кварталах друг от друга.
Кроме того, вы можете рассмотреть расстояние Манхэттена, если входные переменные не похожи по типу (например, возраст, пол, рост и т. Д.). Из-за проклятия размерности мы знаем, что евклидово расстояние становится плохим выбором, так как число измерений увеличивается.
Итак, в двух словах: Манхэттенское расстояние, как правило, работает только в том случае, если точки расположены в виде сетки, и в задаче, над которой мы работаем, приоритет отдается расстоянию между точками только вместе с сетками, а не геометрическому расстоянию.
источник