Есть много способов измерить, насколько похожи два вероятностных распределения. Среди методов, которые популярны (в разных кругах):
Колмогоровское расстояние: расстояние между функциями распределения;
расстояние Канторовича-Рубинштейна: максимальная разница между ожиданиями относительно двух распределений функций с постоянной Липшица , которая также оказывается расстоянием между функциями распределения;
расстояние с ограничением по Липшицу: как и расстояние KR, но функции также должны иметь абсолютное значение не более .
Они имеют разные преимущества и недостатки. Только сходимость в смысле 3. на самом деле точно соответствует сходимости в распределении; сходимость в смысле 1. или 2. в целом немного сильнее. (В частности, если с вероятностью, тосходится кпо распределению, но не по колмогоровскому расстоянию. Однако, если предельное распределение непрерывно, патология не возникает.)
С точки зрения элементарной теории вероятности или меры 1. очень естественен, поскольку сравнивает вероятности нахождения в некотором множестве. С другой стороны, более изощренная вероятностная перспектива имеет тенденцию больше фокусироваться на ожиданиях, чем на вероятностях. Кроме того, с точки зрения функционального анализа расстояния типа 2. или 3., основанные на двойственности с некоторым функциональным пространством, очень привлекательны, потому что существует большой набор математических инструментов для работы с такими вещами.
Однако у меня сложилось впечатление (поправьте меня, если я ошибаюсь!), Что в статистике колмогоровское расстояние является обычно предпочтительным способом измерения подобия распределений. Я могу предположить одну причину: если одно из распределений является дискретным с конечной поддержкой - в частности, если это распределение некоторых реальных данных - тогда расстояние Колмогорова до модельного распределения легко вычислить. (Расстояние KR будет немного сложнее вычислить, а расстояние BL, вероятно, будет невозможно в практическом плане.)
Таким образом, мой вопрос (наконец) заключается в том, существуют ли другие причины, практические или теоретические, в пользу колмогоровского расстояния (или некоторого другого расстояния) для статистических целей?
Ответы:
Отметка,
главная причина использования KS, которую я знаю, заключается в том, что он естественным образом вытекает из теорем Гливенко-Кантелли в одномерных эмпирических процессах. Единственное упоминание, которое я бы порекомендовал, это AWvan der Vaart "Асимптотическая статистика", гл. 19. Более продвинутая монография Уэлнера и ван дер Ваарта "Слабая конвергенция и эмпирические процессы".
Я бы добавил две быстрые заметки:
Я прошу прощения, если я не могу быть более конкретным. Надеюсь, это поможет.
источник
Вычислительные проблемы - самый сильный аргумент, который я слышал, так или иначе. Единственным большим преимуществом колмогоровского расстояния является то, что его очень легко вычислять аналитически практически для любого CDF. Большинство других метрик расстояния не имеют выражения в замкнутой форме, кроме, иногда, в случае Гаусса.
Колмогоровское расстояние выборки также имеет известное распределение выборки с учетом CDF (я не думаю, что большинство других делает), что в конечном итоге связано с процессом Винера. Это основа для теста Колмогорова-Смирнова для сравнения выборки с распределением или двух выборок друг с другом.
На более функциональном аналитическом примечании хорошая норма хороша тем, что (как вы упоминаете) она в основном определяет равномерную сходимость. Это оставляет вас с нормой сходимости, подразумевающей поточечную сходимость, и поэтому вы, если вы умны в том, как определять последовательности функций, вы можете работать в RKHS и использовать все хорошие инструменты, которые это обеспечивает.
источник
Таким образом , мой ответ таков: если у вас есть явное выражение или вы можете понять, как измеряется ваше расстояние (какие «различия» оно дает вес), тогда вы можете сказать, для чего оно лучше. Другим дополнительным способом анализа и сравнения такого теста является теория минимакса.
В конце некоторые тесты будут хороши для некоторых альтернатив, а некоторые для других. Для данного набора альтернатив иногда можно показать, обладает ли ваш тест оптимальным свойством в худшем случае: это теория минимакса.
Некоторые детали
Следовательно, вы можете рассказать о свойствах двух разных тестов, рассмотрев набор альтернатив, для которых они минимаксны (если такая альтернатива существует), т. Е. (Используя слова Донохо и Джина), сравнив их «оптимальную границу обнаружения» http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .
Отпусти меня на расстояние:
KS расстояние получается путем вычисления супремума разницы между эмпирическими cdf и cdf. Будучи супремумом, он будет очень чувствителен к локальным альтернативам (локальное изменение в cdf), но не к глобальным изменениям (по крайней мере, использование расстояния L2 между cdf будет менее локальным (открываю ли я открытую дверь?)). Тем не менее, самое главное, что это использует cdf. Это подразумевает асимметрию: вы придаете больше значения изменениям в хвосте вашего дистрибутива.
Метрика Вассерштейна (что вы имели в виду под Канторовичем Рубинштейном?) Http://en.wikipedia.org/wiki/Wasserstein_metric является вездесущей и, следовательно, ее трудно сравнивать.
Чтобы вспомнить и расширить комментарий, который я сделал, чтобы завершить ответ:
Я знаю, что вы не хотели быть исчерпывающим, но вы могли бы добавить дорогую статистику Андерсона (см. Http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Это заставило меня напомнить бумаги fromo Jager и Wellner (см http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) , который extands / Андерсон обобщает любимец статистика (и включают в себя , в частности , высшая критика туки). Высшая критика, как уже было показано, является минимаксной для широкого спектра альтернатив, и то же самое делают Джагер и Уэлнер для их расширения. Я не думаю, что минимаксное свойство было показано для теста Колмогорова. В любом случае, понимание того, какой тип теста является минимаксным, помогает вам понять, в чем его сила, поэтому вам следует прочитать статью выше.
источник
источник
Я не могу дать вам дополнительных причин использовать тест Колмогорова-Смирнова. Но я могу дать вам важную причину не использовать его. Это не соответствует хвосту распределения хорошо. В этом отношении лучшим тестом для распределения является Андерсон-Дарлинг. Как второй лучший результат, тест Chi Square довольно хорош. В этом отношении оба считаются намного лучше теста KS.
источник
С точки зрения функционального анализа и теории меры расстояния типа не определяют измеримые множества на пространствах функций (бесконечномерные пространства теряют счетную добавку в метрических шаровых покрытиях). Это решительно дисквалифицирует любую измеримую интерпретацию расстояний выбора 2 и 3.Lp
Конечно, Коломогоров, будучи намного ярче, чем кто-либо из нас, особенно в том числе и я, ожидал этого. Умный бит заключается в том, что, хотя расстояние в тесте KS относится к многообразию , сама единообразная норма не используется для определения измеримых множеств. Скорее, наборы являются частью стохастической фильтрации различий между распределениями, оцененными по наблюдаемым значениям; что эквивалентно проблеме времени остановки.L0
Короче говоря, предпочтительным является единичное нормированное расстояние выбора 1, поскольку подразумеваемое им испытание эквивалентно проблеме времени остановки, которая сама по себе создает вычислимые вероятности. Где в качестве вариантов 2 и 3 нельзя определить измеримые подмножества функций.
источник