Измерьте равномерность распределения по дням недели

11

У меня похожая проблема с вопросом, заданным здесь:

Как измерить неоднородность распределения?

У меня есть набор распределения вероятностей по дням недели. Я хочу измерить, насколько близко каждое распределение к (1 / 7,1 / 7, ..., 1/7).

В данный момент я использую ответ на вышеуказанный вопрос; норма L2, которая имеет значение 1, когда распределение имеет массу 1 для одного из дней, и минимизируется для (1 / 7,1 / 7, ..., 1/7). Я линейно масштабирую это, чтобы оно лежало между 0 и 1, затем переворачиваю его так, что 0 означает совершенно неоднородный, а 1 означает совершенно однородный.

Это работает довольно хорошо, но у меня есть одна проблема с этим; каждый день недели одинаково рассматривается как измерение в 7-мерном пространстве, поэтому он не учитывает близость дней; другими словами, он дает одинаковую оценку (1 / 2,1 / 2,0,0,0,0,0) и (1 / 2,0,0,1 / 2,0,0,0) даже хотя в некотором смысле последний более «разложен» и однороден, и в идеале должен получить более высокий балл. Очевидно, есть дополнительное осложнение, что порядок дней является циклическим.

Как я могу изменить эту эвристику, чтобы учесть близость дней?

EBartrum
источник
1
Ваш пример (1 / 2,1 / 2,0,0,0,0,0) и (1 / 2,0,0,1 / 2,0,0,0) неоднороден одинаково , поэтому не должно иметь значения, если вы заинтересованы только в тестировании на неоднородность. Так, может быть, вы хотите проверить что-то еще, что не было четко указано в вашем вопросе? Кстати, энтропия является мерой однородности.
Тим
Спасибо, Тим, я пытался использовать Entropy, но обнаружил, что упомянутая выше эвристика работает лучше для моих целей. Я не уверен, как назвать свойство распределения вероятности по интересующим меня рабочим дням, за исключением того, что оно должно инкапсулировать «разброс» вероятностей за неделю.
EBartrum

Ответы:

15

Расстояние от движущейся земли , также известное как метрика Вассерштейна, измеряет расстояние между двумя гистограммами. По сути, он рассматривает одну гистограмму как количество куч грязи, а затем оценивает, сколько грязи нужно переместить и как далеко (!) Превратить эту гистограмму в другую. Вы бы измерили расстояние между вашим распределением и равномерным по дням недели.

Это, конечно, объясняет близость дней - легче перенести «грязь» с понедельника на вторник, чем с понедельника на четверг, поэтому (1 / 2,0,0,1 / 2,0,0,0) меньшее расстояние перемещения земной поверхности от равномерного распределения, чем гистограмма, сконцентрированная в понедельник и вторник.

Чего это не делает, так это считают "круглость" недели, т. Е. Суббота и воскресенье так же близки, как воскресенье и понедельник. Для этого вам нужно будет найти расстояние для движущегося земного шара, определенное для круговых распределений вероятности по массе . Это должно быть осуществимо с использованием подходящего подхода к оптимизации.


РЕДАКТИРОВАТЬ: В R, emdпакет рассчитывает расстояния движителя земли между гистограммами.

Вы можете решить проблему "цикличности" довольно простым (хотя и нерегулярным) способом.

  • d1
  • d2
  • d3
  • ...
  • d1,,d7

Это позаботится о округлости за счет пары дополнительных вычислений.

di

Тем не менее, я по-прежнему считаю, что это потенциально полезный способ, по крайней мере, каким-то образом рассмотреть округлость - безусловно, лучше, чем просто использовать одну гистограмму и определять неделю как переход с воскресенья на субботу или каким-либо другим произвольным образом. Кроме того, хотя некоторые ссылки выше приводят реализации для расстояния кругового перемещения, я не знаю ни одной для R, которая, вероятно, является наиболее используемым языком здесь.

Стефан Коласса
источник
3
d1,,d7di
@JiK: хороший момент, и тот, который произошел со мной после того, как я вчера потерял связь. Я уточнил свой ответ, чтобы подчеркнуть, что это взлом, а не реальная дистанция с круговым движением земли.
Стефан Коласса
1
Большое спасибо, на самом деле мне удалось реализовать круговое расстояние перемещения земли в R с помощью пакета emd и функции emd2d, определив мою собственную функцию расстояния, поэтому мне не нужно было использовать хак, который вы упомянули. Это именно то, что я искал! Еще одно пустяковое дело: как мне это назвать? Как сказал Тим выше, я не должен называть это единообразием. Какое имя будет подходящим для этой эвристики?
EBartrum
1
L2