Я посмотрел в Интернете, но не смог найти ничего полезного.
Я в основном ищу способ измерить, насколько «равномерно» распределено значение. Как и в «равномерно» распределенном распределении, таком как X :
и «неравномерно» распределенное распределение Y примерно того же среднего значения и стандартного отклонения:
Но есть ли мера равномерности m, такая что m (X)> m (Y)? Если нет, то какой будет лучший способ создать такую меру?
(Скриншот из Академии Хана)
Ответы:
Стандартной, мощной, понятной, теоретически устоявшейся и часто используемой мерой «равномерности» является функция Рипли К и ее близкий родственник, функция L. Хотя они обычно используются для оценки двумерных пространственных точечных конфигураций, анализ, необходимый для их адаптации к одному измерению (который обычно не приводится в ссылках), прост.
теория
Функция K оценивает среднюю пропорцию точек на расстоянии от типичной точки. Для равномерного распределения на интервале [ 0 , 1 ] истинная пропорция может быть вычислена и (асимптотически по размеру выборки) равна 1 - ( 1 - d ) 2 . Соответствующая одномерная версия функции L вычитает это значение из K, чтобы показать отклонения от однородности. Поэтому мы могли бы рассмотреть вопрос о нормализации любого пакета данных для получения единичного диапазона и проверки его функции L на наличие отклонений около нуля.d [0,1] 1−(1−d)2
Отработанные примеры
Чтобы проиллюстрировать , я смоделировали независимых выборок размером 64 из равномерного распределения и наносили на график их (нормированная) L функции на более короткие расстояния (от 0 до 1 / 3 ), тем самым создавая конверт для оценки распределения выборки функции L. (Точки, нанесенные в пределах этой огибающей, не могут быть значительно отличены от однородности.) В связи с этим я нанес на график функции L для образцов одинакового размера из распределения U-образной формы, распределения смеси с четырьмя очевидными компонентами и стандартного нормального распределения. Гистограммы этих выборок (и их родительских распределений) показаны для справки с использованием линейных символов, соответствующих символам L-функций.999 64 0 1/3
Острые разделенные пики U-образного распределения (пунктирная красная линия, крайняя левая гистограмма) создают кластеры близко расположенных значений. Это отражается в очень большом наклоне в функции L в . Затем функция L уменьшается, становясь в конечном итоге отрицательной, отражая промежутки на промежуточных расстояниях.0
Выборка из нормального распределения (сплошная синяя линия, крайняя правая гистограмма) довольно близка к равномерно распределенной. Соответственно, его L-функция не быстро отклоняется от . Тем не менее, на расстоянии 0,10 или около того, он достаточно поднялся над огибающей, чтобы сигнализировать о небольшой тенденции к скоплению. Продолжающийся рост на промежуточные расстояния указывает на то, что кластеризация является диффузной и широко распространенной (не ограничиваясь некоторыми изолированными пиками).0 0.10
Начальный большой уклон для образца из распределения смеси (средняя гистограмма) показывает кластеризацию на малых расстояниях (менее ). Опускаясь до отрицательных уровней, он сигнализирует о разделении на промежуточных расстояниях. Сравнение этого с L-функцией U-образного распределения показательно: наклоны в 0 , величины, на которые эти кривые поднимаются выше 0 , и скорости, с которыми они в конечном итоге снижаются до 0, все предоставляют информацию о природе кластеризации, присутствующей в данные. Любая из этих характеристик может быть выбрана как единая мера "равномерности" для соответствия конкретному применению.0.15 0 0 0
Эти примеры показывают, как L-функция может быть исследована для оценки отклонений данных от однородности («равномерности») и как количественная информация о масштабе и характере отклонений может быть извлечена из нее.
(Можно действительно построить всю L-функцию, простирающуюся до полного нормализованного расстояния , для оценки крупномасштабных отклонений от однородности. Однако обычно оценка поведения данных на меньших расстояниях имеет большее значение.)1
Програмное обеспечение
R
код для генерации этого рисунка следует. Он начинается с определения функций для вычисления K и L. Он создает возможность для моделирования из распределения смеси. Затем он генерирует смоделированные данные и составляет графики.источник
Ripley.L
.Я предполагаю, что вы хотите измерить, насколько близко распределение к униформе.
Вы можете посмотреть на расстояние между кумулятивной функцией распределения равномерного распределения и эмпирической функцией распределения образца.
Теперь в качестве меры расстояния между распределениями возьмем сумму расстояний в каждой точке, т.е.
В более сложных случаях вам необходимо пересмотреть использованную выше норму, но основная идея остается прежней. Если вам нужна процедура тестирования, может быть полезно использовать нормы, для которых разработаны тесты (те, на которые указал @TomMinka).
источник
Если я правильно понимаю ваш вопрос, то для вас наиболее «равномерным» будет распределение, в котором случайная величина принимает каждое наблюдаемое значение один раз - в каком-то смысле равномерно. Если бы «кластеры» наблюдений имели одно и то же значение, это было бы неравномерно. Предполагая, что мы говорим о дискретных наблюдениях, возможно, вы могли бы посмотреть как на среднюю разницу между точками вероятностной массы, на максимальную разницу, так и на то, сколько наблюдений имеют разницу со «средним» по определенному порогу.
Если бы он был действительно равномерным в наблюдениях, все точки PM должны иметь одинаковое значение, а разница между максимальным и минимальным значением равна 0. Чем ближе средняя разница к 0, тем больше «четная» масса наблюдений, тем ниже максимальная разница и меньшее количество «пиков» также показывают, насколько «даже» эмпирические наблюдения.
Обновление Конечно, вы можете использовать критерий хи-квадрат для однородности или сравнить эмпирическую функцию распределения с униформой, но в этих случаях вы будете оштрафованы любыми большими "пробелами" в наблюдениях, даже если распределение наблюдений все еще "четный".
источник
Мера, которую вы ищете, формально называется расхождением .
Одномерная версия выглядит следующим образом:
Последовательности с низким расхождением часто называют квазислучайными последовательностями .
Базовый обзор последовательностей с низким расхождением можно найти здесь , а в моем блоге « Необоснованная эффективность квазислучайных последовательностей » сравниваются различные методы применительно к числовому интегрированию, сопоставление точек с поверхностью сферы и квазипериодическое разбиение на листы.
источник
источник