Для рандомизированных алгоритмов принимающих реальные значения, «срединный трюк» - это простой способ уменьшить вероятность отказа до любого порогового значения , за счет только мультипликативного накладные расходы. А именно, еслиВыход «сек падает в„хороший диапазон“с вероятностью (по крайней мере),затем выполняется независимые копии1,...,ти принимая медиану их выходовa1,…,atприведет к падению значенияIс вероятностью не менее1-δпо границам Черноффа / Хеффдинга.
Есть ли какое-либо обобщение этого «трюка» для более высоких измерений, скажем, , где хорошим диапазоном является теперь выпуклое множество (или шар, или любое достаточно хорошее и структурированное множество)? То есть, дано рандомизированное алгоритм вывода значения в R д , и «хороший набор» S ⊆ R d такие , что Р г { А ( х , г ) ∈ S } ≥ 2 / 3 для всех х , как можно импульс вероятность успеха до 1 - δтолько с логарифмической стоимостью в ?
(По-разному: задано фиксированное, произвольное с гарантией того, что не менее 2 t изaiпринадлежатS, существует ли процедура вывода значения изS? Если так, есть ли эффективный?)
И каков минимальный набор допущений, необходимых для чтобы вышеперечисленное было достижимым?
Извините, если это окажется тривиальным - я не смог найти ссылку на этот вопрос ...
источник
Ответы:
То, что вы ищете, - это почти такая же устойчивая центральная тенденция : способ сокращения облака точек данных до одной точки, такой, что если многие точки данных близки к некоторой «основной истине», но остальные как угодно далеко, тогда ваш вывод также будет близок к истине. «Точка разрушения» такого метода - это доля произвольно плохих выбросов, которые он может терпеть. Разница в том, что в вашем случае вы хотите заменить «близко к» на «внутри выпуклой оболочки».
Один из способов уловить это с помощью понятия глубины Тьюки. Точка имеет глубину Тьюки (относительно заданного набора из n точек данных), если каждое полупространство, содержащее данную точку, также содержит по меньшей мере p n точек данных. Если есть хорошее выпуклое подпространство, внутри которого вы хотите находиться, то точка с глубиной Тьюки p будет внутри него, пока есть хотя быp n pn p точек данных. Таким образом, точка разрыва этого метода является наибольшим значением p, которое вы можете получить.(1−p)n p
К сожалению, эта точка разбивки равна , а не близко к 1/2, как для глубины Тьюки, так и для вашей проблемы. И вот почему: если ваши данные сгруппированы около вершин d + 1 симплекса, то до тех пор, пока меньше 1 / ( d + 11/(d+1) d+1 их доля ) является выбросами (но вы не знаете, какие именно), тогда любая точка в Симплекс безопасен в выборе, так как он всегда будет в выпуклой оболочке не-выбросов. Но если больше 1 / ( д + 1 )1/(d+1) 1/(d+1) из точек могут быть выбросы, нигде не может быть безопасно выбирать: какую бы точку в симплексе вы ни выбрали, выбросы могут быть всеми точками из ближайшей симплекс-вершины, и вы будете вне корпуса останцы.
Если вы готовы терпеть худшую точку разбивки, больше похоже на , есть рандомизированный метод для нахождения глубокой точки, полиномиальной как по n, так и по d : см. Мою статьюO(1/d2) n d
Аппроксимирующие центральные точки с повторяющимися точками Радона, К. Кларксон, Д. Эппштейн, Г. Л. Миллер, С. Стуртивант и С.-Х. Тенг, 9-й симпозиум ACM Комп. Геом. Сан-Диего, 1993, стр. 91–98, Int. J. Comp. Геом. & Appl. 6 (3): 357–377, 1996, http://kenclarkson.org/center/p.pdf
источник
Это аккуратный вопрос, и я думал об этом раньше. Вот что мы придумали:
Вы запускаете свой алгоритм раз , чтобы получить выходы х 1 , ⋯ , х п ∈ R D , и вы знаете , что с большой долей вероятности большая часть х я с падения в некоторый хороший набор G . Вы не знаете, что такое G , просто оно выпуклое. Хорошей новостью является то, что есть способ получить точку в G без дополнительной информации об этом. Назовите эту точку f ( x 1 , ⋯ , x n )n x1,⋯,xn∈Rd xi G G G f(x1,⋯,xn) .
Обратите внимание, что для мы можем установить f в качестве медианы. Так что это показывает, как обобщить медиану для d > 1 .d=1 f d>1
Прежде чем доказывать этот результат, обратите внимание, что он жесткий: пусть и пусть x 1 , ⋯ , x d будут стандартными базисными элементами и x d + 1 = 0 . Любое подмножество d точек содержится в аффинном пространстве G размерности d - 1 (которое однозначно определяется этими точками). Но во всех этих аффинных пространствах нет смысла. Следовательно, существует некоторая выпуклая G , содержащая n ⋅ d / ( d +n=d+1 x1,⋯,xd xd+1=0 d G d−1 G очков, но не содержит f ( x 1 , ⋯ , x n )n⋅d/(d+1)=d f(x1,⋯,xn) , какое бы значение оно ни приняло.
Unfortunately, this result is not very practical in the high-dimensional setting. A good question is whether we can computef more efficiently:
Aside: We can also change the problem to get an efficient solution: Ifx1,⋯,xn have the property that strictly more than half of them lie in a ball B(y,ε) , then we can find a point z that lies in B(y,3ε) in time polynomial in n and d . In particular, we can set z=xi for an arbitrary i such that strictly more than half of the points are in B(z,2ε) .
источник
There is a notion of the median of a set of points in high-dimensions and general norms which is known under various names. It is just the point that minimizes the sum of distances to all the points in the set. It is known to have a similar confidence amplification property as the usual median with a small multiplicative increase in the distance. You can find the details in Theorem 3.1 of this paper: http://arxiv.org/pdf/1308.1334.pdf
One nice thing that this paper shows is that the factor by which the distance increases can be made any constant >1 if you can amplify from arbitrarily high (but constant < 1) confidence.
Edit: there is another recent paper on the topic by Hsu and Sabato http://arxiv.org/pdf/1307.1827v6.pdf It mostly analyzes and applies the procedure in which the point in the set with the smallest median distance to the rest of the points is used. This procedure can be used with any metric but only gives an approximation factor of 3.
источник