У меня похожая проблема с вопросом, заданным здесь:
Как измерить неоднородность распределения?
У меня есть набор распределения вероятностей по дням недели. Я хочу измерить, насколько близко каждое распределение к (1 / 7,1 / 7, ..., 1/7).
В данный момент я использую ответ на вышеуказанный вопрос; норма L2, которая имеет значение 1, когда распределение имеет массу 1 для одного из дней, и минимизируется для (1 / 7,1 / 7, ..., 1/7). Я линейно масштабирую это, чтобы оно лежало между 0 и 1, затем переворачиваю его так, что 0 означает совершенно неоднородный, а 1 означает совершенно однородный.
Это работает довольно хорошо, но у меня есть одна проблема с этим; каждый день недели одинаково рассматривается как измерение в 7-мерном пространстве, поэтому он не учитывает близость дней; другими словами, он дает одинаковую оценку (1 / 2,1 / 2,0,0,0,0,0) и (1 / 2,0,0,1 / 2,0,0,0) даже хотя в некотором смысле последний более «разложен» и однороден, и в идеале должен получить более высокий балл. Очевидно, есть дополнительное осложнение, что порядок дней является циклическим.
Как я могу изменить эту эвристику, чтобы учесть близость дней?
Ответы:
Расстояние от движущейся земли , также известное как метрика Вассерштейна, измеряет расстояние между двумя гистограммами. По сути, он рассматривает одну гистограмму как количество куч грязи, а затем оценивает, сколько грязи нужно переместить и как далеко (!) Превратить эту гистограмму в другую. Вы бы измерили расстояние между вашим распределением и равномерным по дням недели.
Это, конечно, объясняет близость дней - легче перенести «грязь» с понедельника на вторник, чем с понедельника на четверг, поэтому (1 / 2,0,0,1 / 2,0,0,0) меньшее расстояние перемещения земной поверхности от равномерного распределения, чем гистограмма, сконцентрированная в понедельник и вторник.
Чего это не делает, так это считают "круглость" недели, т. Е. Суббота и воскресенье так же близки, как воскресенье и понедельник. Для этого вам нужно будет найти расстояние для движущегося земного шара, определенное для круговых распределений вероятности по массе . Это должно быть осуществимо с использованием подходящего подхода к оптимизации.
РЕДАКТИРОВАТЬ: В R,
emd
пакет рассчитывает расстояния движителя земли между гистограммами.Вы можете решить проблему "цикличности" довольно простым (хотя и нерегулярным) способом.
Это позаботится о округлости за счет пары дополнительных вычислений.
Тем не менее, я по-прежнему считаю, что это потенциально полезный способ, по крайней мере, каким-то образом рассмотреть округлость - безусловно, лучше, чем просто использовать одну гистограмму и определять неделю как переход с воскресенья на субботу или каким-либо другим произвольным образом. Кроме того, хотя некоторые ссылки выше приводят реализации для расстояния кругового перемещения, я не знаю ни одной для R, которая, вероятно, является наиболее используемым языком здесь.
источник