Я вижу, что существует много формальных различий между мерами расстояния Кульбака-Лейблера-Колмогорова-Смирнова. Тем не менее, оба используются для измерения расстояния между распределениями.
- Есть ли типичная ситуация, когда один должен использоваться вместо другого?
- Каково обоснование для этого?
Ответы:
Расхождение KL обычно используется в теоретико-информационных настройках или даже в байесовских настройках, например, для измерения изменения информации между распределениями до и после применения некоторого вывода. Это не расстояние в типичном (метрическом) смысле из-за отсутствия симметрии и неравенства треугольника, и поэтому оно используется в местах, где направленность имеет смысл.
KS-расстояние обычно используется в контексте непараметрического теста. На самом деле, я редко видел, чтобы оно использовалось как общее «расстояние между распределениями», где расстояние расстояние Дженсена-Шеннона и другие расстояния более распространены.ℓ1
источник
Другой способ изложить то же самое, что и предыдущий ответ, в более непрофессиональных терминах:
Дивергенция KL - фактически показывает, насколько велика разница между двумя распределениями. Как упоминалось в предыдущем ответе, эта мера не является подходящей метрикой расстояния, поскольку она не симметрична. Т.е. расстояние между распределением A и B отличается от расстояния между распределением B и A.
Тест Колмогорова-Смирнова - это метрика оценки, которая рассматривает наибольшее разделение между совокупным распределением тестового распределения относительно эталонного распределения. Кроме того, вы можете использовать эту метрику точно так же, как z-показатель против распределения Колмогорова, чтобы выполнить проверку гипотезы относительно того, является ли тестовое распределение тем же распределением, что и эталонное. Эта метрика может использоваться как функция расстояния, поскольку она симметрична. Т.е. наибольшее разделение между CDF A и CDF B такое же, как наибольшее разделение между CDF B против CDF A.
источник