Мне интересно, есть ли какие-либо стандартные распределения на подмножествах целых чисел . Эквивалентно, мы могли бы выразить это как распределение по вектору длины двоичных результатов, например, если то соответствует вектору .
В идеале я ищу некое распределение , происходящее из семейства, индексируемого конечномерным параметром , которое распределит свою массу таким образом, что два двоичных вектора и будут иметь одинаковый вероятность того, что они «близки» друг к другу, т.е. и имеют схожие вероятности. Действительно, то, что я намерен сделать, я надеюсь, это поставить априту на , что если я знаю, что довольно велика, то , вероятно, велика относительно векторов, удаленных от .
Одна из стратегий , которая приходит на ум бы поставить метрику или некоторую другую меру дисперсии на на , а затем принять , или что-то похожее. Явным примером будет по аналогии с нормальным распределением. Это хорошо, но я надеюсь, что есть что-то стандартное и поддающееся байесовскому анализу; с этим я не могу записать нормализующую константу.
источник
Ответы:
Вы можете предпочесть семейства местоположений, основанные на расстоянии Хэмминга , из-за их богатства, гибкости и вычислительной управляемости.
Обозначения и определения
Напомним , что в свободном конечномерном модуле с базисом ( е 1 , е 2 , ... , е J ) , то расстояние Хэмминга δ H между двумя векторами v = v 1 е 1 + ⋯ + v J е J и ш = ш 1 e 1 + ⋯ + w J e J - количество мест i, где v iV (e1,e2,…,eJ) δH v=v1e1+⋯+vJeJ w=w1e1+⋯+wJeJ i .vi≠wi
Для любого начала координат расстояние Хэмминга разбивает V на сферы S i ( v 0 ) , , где . Когда основное кольцо имеет элементов, имеет элементов, а имеет элементов. (Это сразу следует из наблюдения, что элементы отличаются от в точностиv0∈V V Si(v0) S i ( v 0 ) = { w ∈ V | δ H ( w , v 0 ) = i } n V n J S i ( v ) ( Ji=0,1,…,J Si(v0)={w∈V | δH(w,v0)=i} n V nJ Si(v) Si(v)vi ( J(Ji)(n−1)i Si(v) v i мест - из которых есть возможностей - и что существует, независимо, выбор значений для каждого места.) п-1(Ji) n−1
Аффинный перевод в действует естественным образом в его распределениях, давая семейства местоположений. В частности, когда - это любое распределение на (что означает чуть больше, чем , для всех и ) и - любой элемент из , тогда также является распределением гдеf V f : V → [ 0 , 1 ] f ( v ) ≥ 0 v ∈ V ∑ v ∈ V f ( v ) = 1 w V f ( w )V f V f:V→[0,1] f(v)≥0 v∈V ∑v∈Vf(v)=1 w V f(w)
для всех . Расположение семьи распределений инвариантна относительно этого действия: означает для всех .Ом F ∈ Ом F ( v ) ∈ Ом v ∈ Vv∈V Ω f∈Ω f(v)∈Ω v∈V
строительство
Это позволяет нам определять потенциально интересные и полезные семейства распределений, определяя их формы в одном фиксированном векторе , который для удобства я буду считать и переводя эти «порождающие распределения» под действием чтобы получить полное семейство . Для достижения желаемого свойства, чтобы имело сопоставимые значения в близлежащих точках, просто требуется это свойство всех генерирующих распределений.0 = ( 0 , 0 , … , 0 ) V Ω fv 0=(0,0,…,0) V Ω f
Чтобы увидеть, как это работает, построим семейство местоположений всех распределений, которые уменьшаются с увеличением расстояния. Поскольку возможны только расстояния Хэмминга, рассмотрим любую убывающую последовательность неотрицательных действительных чисел = . Наборa 0 ≠ a 0 ≥ a 1 ≥ ⋯ ≥ a J ≥ 0J+1 a 0≠a0≥a1≥⋯≥aJ≥0
и определите функцию помощьюfa:V→[0,1]
Тогда, как несложно проверить, является распределением на . Кроме того, тогда и только тогда, когда является положительным кратным (как векторы в ). Таким образом, если нам нравится, мы можем стандартизировать к . V f a = f a ′ a ′ a R J + 1 a a 0 = 1fa V fa=fa′ a′ a RJ+1 a a0=1
Соответственно, эта конструкция дает явную параметризацию всех таких локально-инвариантных распределений, которые уменьшаются с расстоянием Хэмминга: любое такое распределение имеет вид для некоторой последовательности и некоторый вектор . = 1 ≥ 1 ≥ 2 ≥ ⋯ ≥ J ≥ 0 v ∈ Vf(v)a a=1≥a1≥a2≥⋯≥aJ≥0 v∈V
Эта параметризация может обеспечить удобную спецификацию априоров: разложить их в априор в расположении и априор в форме . (Конечно, можно рассмотреть больший набор приоров, где местоположение и форма не являются независимыми, но это было бы более сложным делом.)v a
Генерация случайных значений
Один из способов выборки из заключается в поэтапном распределении его по распределению по сферическому радиусу, а другое распределение зависит от каждой сферы:f(v)a
Нарисуйте индекс из дискретного распределения на заданного вероятностями , где определено, как и раньше ,{ 0 , 1 , … , J } ( Ji {0,1,…,J} A(Ji)(n−1)iai/A A
Индекс соответствует множеству векторов, отличающихся от ровно местами. Поэтому выберите те которые размещаю из возможных подмножеств, давая каждому равную вероятность. (Это только образец Нижние индексы из без замены.) Пусть это подмножество место записывается .против я я ( Джi v i i яJяI(Ji) i J i I
Нарисуйте элемент , независимо выбрав значение равномерно из набора скаляров, не равных для всех и в противном случае установите . Эквивалентно, создайте вектор , выбрав случайным образом из ненулевых скаляров, когда и в противном случае установите . Установите .w j v j j ∈ I w j = v j u u j j ∈ I u j = 0 w = v + uw wj vj j∈I wj=vj u uj j∈I uj=0 w=v+u
Шаг 3 не нужен в двоичном случае.
пример
Вот
R
реализация для иллюстрации.В качестве примера его использования:
Для извлечения iid элементов из дистрибутива потребовалось секунды, где , (двоичный регистр), и экспоненциально уменьшается.0.2 104 f(v)a J=10 n=2 v=(1,1,…,1) a=(211,210,…,21)
(Этот алгоритм не требует уменьшения ; таким образом, он будет генерировать случайные изменения из любого семейства местоположений, а не только унимодальных.)a
источник
Выборка из k-детерминантного точечного процесса моделирует распределение по подмножествам, которое поощряет разнообразие, так что подобные элементы с меньшей вероятностью встречаются вместе в выборке. Обратитесь к K-детерминантной выборке точечного процесса Алекса Кулеша, Бена Таскара.
источник