Мотивация колмогоровского расстояния между распределениями

45

Есть много способов измерить, насколько похожи два вероятностных распределения. Среди методов, которые популярны (в разных кругах):

  1. Колмогоровское расстояние: расстояние между функциями распределения;

  2. расстояние Канторовича-Рубинштейна: максимальная разница между ожиданиями относительно двух распределений функций с постоянной Липшица 1 , которая также оказывается расстоянием L1 между функциями распределения;

  3. расстояние с ограничением по Липшицу: как и расстояние KR, но функции также должны иметь абсолютное значение не более 1 .

Они имеют разные преимущества и недостатки. Только сходимость в смысле 3. на самом деле точно соответствует сходимости в распределении; сходимость в смысле 1. или 2. в целом немного сильнее. (В частности, если Xn=1n с вероятностью1, тоXnсходится к0по распределению, но не по колмогоровскому расстоянию. Однако, если предельное распределение непрерывно, патология не возникает.)

С точки зрения элементарной теории вероятности или меры 1. очень естественен, поскольку сравнивает вероятности нахождения в некотором множестве. С другой стороны, более изощренная вероятностная перспектива имеет тенденцию больше фокусироваться на ожиданиях, чем на вероятностях. Кроме того, с точки зрения функционального анализа расстояния типа 2. или 3., основанные на двойственности с некоторым функциональным пространством, очень привлекательны, потому что существует большой набор математических инструментов для работы с такими вещами.

Однако у меня сложилось впечатление (поправьте меня, если я ошибаюсь!), Что в статистике колмогоровское расстояние является обычно предпочтительным способом измерения подобия распределений. Я могу предположить одну причину: если одно из распределений является дискретным с конечной поддержкой - в частности, если это распределение некоторых реальных данных - тогда расстояние Колмогорова до модельного распределения легко вычислить. (Расстояние KR будет немного сложнее вычислить, а расстояние BL, вероятно, будет невозможно в практическом плане.)

Таким образом, мой вопрос (наконец) заключается в том, существуют ли другие причины, практические или теоретические, в пользу колмогоровского расстояния (или некоторого другого расстояния) для статистических целей?

Марк Мекес
источник
1
Мне нравится вопрос, возможно, в этом вопросе уже есть большинство возможных ответов ... У вас есть представление о типе ответа / развития, который вы хотите?
Робин Жирар
1
Не очень конкретно. Я совершенно не осведомлен о статистике, и одна из причин, по которой я спрашиваю, состоит в том, чтобы узнать, какие критерии статистики использовали бы для выбора между различными показателями. Так как я уже описал одно важное практическое преимущество 1 (вы можете вычислить его), меня особенно интересуют теоретические мотивы. Скажем, информация, предоставленная оценками колмогоровского расстояния, часто прямого использования в приложениях?
Марк Мекес
Я забыл закончить свой предыдущий комментарий более или менее очевидным: и если да, то как?
Марк Мекес
Я просто перечитал свой длинный комментарий выше и понял, что последний вопрос, который я поднял, является не только теоретическим, но и практическим. В любом случае, это один из тех вопросов, о которых мне было бы интересно узнать.
Марк Мекес
Я знаю, что вы не хотели быть исчерпывающим, но вы могли бы добавить дорогую статистику Андерсона (см. En.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Это заставило меня напомнить бумаги fromo Jager и Wellner (см projecteuclid.org/... ) , который extands / Андерсон обобщает любимец статистику (и включает в себя , в частности , более высокой критике Тьюки) ...
робин Girard

Ответы:

12

Отметка,

главная причина использования KS, которую я знаю, заключается в том, что он естественным образом вытекает из теорем Гливенко-Кантелли в одномерных эмпирических процессах. Единственное упоминание, которое я бы порекомендовал, это AWvan der Vaart "Асимптотическая статистика", гл. 19. Более продвинутая монография Уэлнера и ван дер Ваарта "Слабая конвергенция и эмпирические процессы".

Я бы добавил две быстрые заметки:

  1. другой мерой расстояния, обычно используемой в одномерных распределениях, является расстояние Крамера-фон Мизеса, которое является расстоянием L ^ 2;
  2. в общих векторных пространствах используются разные расстояния; область интереса во многих статьях польская. Очень хорошим введением является «Сходимость вероятностных мер» Биллингсли.

Я прошу прощения, если я не могу быть более конкретным. Надеюсь, это поможет.

с промежутками
источник
2
Две быстрые заметки на ваших заметках. 1. Расстояние C-vM является в точности двоюродным братом L ^ 2 колмогоровских (L ^ бесконечность) и (одномерных) KR (L ^ 1) расстояний и, следовательно, интерполируется между ними. 2. Одно преимущество, которое я не упомянул о расстояниях KR и BL, состоит в том, что они более естественным образом обобщаются в пространства более высоких измерений.
Марк Мекес
Что касается 1., это правильно. Относительно 2. В принципе все вышеперечисленные расстояния могут быть перенесены на R ^ n, однако я не знаю популярных непараметрических тестов, основанных на каком-либо расстоянии. Было бы интересно узнать, есть ли такие.
gappy
8

Вычислительные проблемы - самый сильный аргумент, который я слышал, так или иначе. Единственным большим преимуществом колмогоровского расстояния является то, что его очень легко вычислять аналитически практически для любого CDF. Большинство других метрик расстояния не имеют выражения в замкнутой форме, кроме, иногда, в случае Гаусса.

Колмогоровское расстояние выборки также имеет известное распределение выборки с учетом CDF (я не думаю, что большинство других делает), что в конечном итоге связано с процессом Винера. Это основа для теста Колмогорова-Смирнова для сравнения выборки с распределением или двух выборок друг с другом.

На более функциональном аналитическом примечании хорошая норма хороша тем, что (как вы упоминаете) она в основном определяет равномерную сходимость. Это оставляет вас с нормой сходимости, подразумевающей поточечную сходимость, и поэтому вы, если вы умны в том, как определять последовательности функций, вы можете работать в RKHS и использовать все хорошие инструменты, которые это обеспечивает.

Богатый
источник
8

Таким образом , мой ответ таков: если у вас есть явное выражение или вы можете понять, как измеряется ваше расстояние (какие «различия» оно дает вес), тогда вы можете сказать, для чего оно лучше. Другим дополнительным способом анализа и сравнения такого теста является теория минимакса.

В конце некоторые тесты будут хороши для некоторых альтернатив, а некоторые для других. Для данного набора альтернатив иногда можно показать, обладает ли ваш тест оптимальным свойством в худшем случае: это теория минимакса.


Некоторые детали

Следовательно, вы можете рассказать о свойствах двух разных тестов, рассмотрев набор альтернатив, для которых они минимаксны (если такая альтернатива существует), т. Е. (Используя слова Донохо и Джина), сравнив их «оптимальную границу обнаружения» http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .

Отпусти меня на расстояние:

  1. KS расстояние получается путем вычисления супремума разницы между эмпирическими cdf и cdf. Будучи супремумом, он будет очень чувствителен к локальным альтернативам (локальное изменение в cdf), но не к глобальным изменениям (по крайней мере, использование расстояния L2 между cdf будет менее локальным (открываю ли я открытую дверь?)). Тем не менее, самое главное, что это использует cdf. Это подразумевает асимметрию: вы придаете больше значения изменениям в хвосте вашего дистрибутива.

  2. Метрика Вассерштейна (что вы имели в виду под Канторовичем Рубинштейном?) Http://en.wikipedia.org/wiki/Wasserstein_metric является вездесущей и, следовательно, ее трудно сравнивать.

    • Для конкретного случая W2 он использовался в http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1017938923 и связан с расстоянием L2 до инверсии cdf. Насколько я понимаю, это придает хвостам еще больший вес, но я думаю, что вы должны прочитать статью, чтобы узнать о ней больше.
    • В случае расстояния L1 между функцией плотности это будет в значительной степени зависеть от того, как вы оцениваете свою функцию зубной массы по данным ... но в противном случае это будет "сбалансированный тест", не придающий значения хвостам.

Чтобы вспомнить и расширить комментарий, который я сделал, чтобы завершить ответ:

Я знаю, что вы не хотели быть исчерпывающим, но вы могли бы добавить дорогую статистику Андерсона (см. Http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Это заставило меня напомнить бумаги fromo Jager и Wellner (см http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) , который extands / Андерсон обобщает любимец статистика (и включают в себя , в частности , высшая критика туки). Высшая критика, как уже было показано, является минимаксной для широкого спектра альтернатив, и то же самое делают Джагер и Уэлнер для их расширения. Я не думаю, что минимаксное свойство было показано для теста Колмогорова. В любом случае, понимание того, какой тип теста является минимаксным, помогает вам понять, в чем его сила, поэтому вам следует прочитать статью выше.

Робин Жирар
источник
1
Да, то, что я назвал расстоянием Канторовича-Рубинштейна, также называется расстоянием Вассерштейна L ^ 1 или W1. Это также называется многими другими именами.
Марк Мекес
3
Просто чтобы уточнить для любого, кто не знаком с расстояниями Вассерштейна, кто читает это и ответ Гэппи: расстояние Вассерштейна L ^ 2 (W2) не совпадает с расстоянием Крамера-фон Мизеса.
Марк Мекес
4

FF

FF^

supx|Fn(x)F^(x)|.
F^F^=F
vqv
источник
3

Я не могу дать вам дополнительных причин использовать тест Колмогорова-Смирнова. Но я могу дать вам важную причину не использовать его. Это не соответствует хвосту распределения хорошо. В этом отношении лучшим тестом для распределения является Андерсон-Дарлинг. Как второй лучший результат, тест Chi Square довольно хорош. В этом отношении оба считаются намного лучше теста KS.

Sympa
источник
2

С точки зрения функционального анализа и теории меры расстояния типа не определяют измеримые множества на пространствах функций (бесконечномерные пространства теряют счетную добавку в метрических шаровых покрытиях). Это решительно дисквалифицирует любую измеримую интерпретацию расстояний выбора 2 и 3.Lp

Конечно, Коломогоров, будучи намного ярче, чем кто-либо из нас, особенно в том числе и я, ожидал этого. Умный бит заключается в том, что, хотя расстояние в тесте KS относится к многообразию , сама единообразная норма не используется для определения измеримых множеств. Скорее, наборы являются частью стохастической фильтрации различий между распределениями, оцененными по наблюдаемым значениям; что эквивалентно проблеме времени остановки.L0

Короче говоря, предпочтительным является единичное нормированное расстояние выбора 1, поскольку подразумеваемое им испытание эквивалентно проблеме времени остановки, которая сама по себе создает вычислимые вероятности. Где в качестве вариантов 2 и 3 нельзя определить измеримые подмножества функций.

Аарон Шелдон
источник