Оценки

21

Если - выпуклая функция, то неравенство Дженсена утверждает, что , и mutatis mutandis, когда вогнута. Очевидно, что в худшем случае вы не можете получить верхнюю границу в терминах для выпуклого , но есть ли граница, которая идет в этом направлении, если выпуклый, но не слишком выпуклый? Существует ли некоторая стандартная граница, которая задает условия для выпуклой функции (и, возможно, распределения, если необходимо), которая позволила бы вам сделать вывод, что , гдеff(E[x])E[f(x)]fE[f(x)]f(E[x])fffE[f(x)]φ(f)f(E[x])φ(f)некоторая функция кривизны / степени выпуклости ? Возможно, что-то похожее на состояние Липшица?f

Ян
источник
Голосование закрыто как не по теме. math.stackexchange.com может быть?
Арьябхата
7
Я думаю, что этот вопрос должен остаться открытым; это такое неравенство, которое многие работающие теоретики сочтут полезным на регулярной основе.
Аарон Рот
10
Я знаю, что это ближе к чистой математике, чем большинство вопросов, опубликованных до сих пор, но я бы сказал, что это по теме, поскольку подобные вещи часто встречаются при анализе рандомизированных алгоритмов (это приложение, которое я имею в разум). Я думаю, что математика, которая широко используется в информатике, должна считаться честной игрой для вопросов.
Ян
6
голосовать, чтобы держать открытым. определенно по теме
Суреш Венкат
1
Я также голосую, чтобы остаться открытым.
Джефф

Ответы:

21

РЕДАКТИРОВАТЬ: оригинальная версия пропустила абсолютное значение. извиняюсь!!

Привет, Ян. Я кратко опишу два выборочных неравенства, одно из которых использует границу Липшица, другое - границу второй производной, а затем расскажу о некоторых трудностях в этой задаче. Хотя я избыточен, поскольку подход, использующий одну производную, объясняет, что происходит с большим количеством производных (через Тейлора), оказывается, что вторая производная версия довольно хороша.

Во-первых, с привязкой по Липшицу: просто пересмотрите стандартное неравенство Дженсена. Применяется тот же трюк: вычислить расширение Тейлора с ожидаемым значением.

В частности, пусть имеет соответствующую меру µ и положим m : = E ( x ) . Если f имеет постоянную Липшица L , то по теореме ТейлораXμm:=E(x)fL

f(x)=f(m)+f(z)(xm)f(m)+L|xm|,

где (обратите внимание, что x m и x > m возможны). Используя это и переделывая доказательство Дженсена (я параноик и проверил, что стандартное действительно есть в Википедии),z[m,x]xmx>m

E(f(X))=f(x)dμ(x)f(m)dμ(x)+L|xm|dμ(x)=f(E(X))+LE(|XE(X)|).

Теперь предположим, что . В этом случае,|f(x)|λ

f(x)=f(m)+f(m)(xm)+f(z)(xm)22f(m)+f(m)(xm)+λ(xm)22,

и так

E(f(X))f(m)+f(m)(E(X)m)+λE((Xm)2)2=f(E(X))+λVar(X)2.

Я хотел бы кратко упомянуть несколько вещей. Извините, если они очевидны.

Во-первых, вы не можете просто сказать «wlog », сдвигая распределение, потому что вы меняете отношение между f и μ .E(X)=0fμ

Далее следует, что оценка должна каким-то образом зависеть от распределения. Чтобы увидеть это, представьте, что и f ( x ) = x 2 . Независимо от значения σ , вы все равно получите f ( E ( X ) ) = f ( 0 ) = 0 . С другой стороны, E ( f ( X ) ) = E ( XXGaussian(0,σ2)f(x)=x2σf(E(X))=f(0)=0 . Таким образом, изменяя σ , вы можете сделать зазор между двумя величинами произвольным! Интуитивно понятно, что больше массы отталкивается от среднего значения, и поэтому для любой строго выпуклой функции E ( f ( X ) ) будет увеличиваться.E(f(X))=E(X2)=σ2σE(f(X))

Наконец, я не вижу, как получить мультипликативный предел, как вы предлагаете. Все, что я использовал в этом посте, является стандартным: теорема Тейлора и производные оценки являются статистикой, и они автоматически дают аддитивные, а не мультипликативные ошибки.

Я подумаю об этом, и что-нибудь напишу. Неясная интуиция заключается в том, что потребуются очень напряженные условия как для функции, так и для распределения, и что аддитивная граница фактически лежит в основе этого.

Матус
источник
Каждый раз, когда я редактирую, ответ сталкивается. Итак, я укажу: вторая производная граница жесткая для примера, который я привел.
Матус
Я думаю, что вы правы в том, что аддитивные оценки являются наилучшими из возможных без гораздо более строгих условий для функции.
Ян
Уважаемый Ян, я думал об этой проблеме немного больше, но главная трудность в моей голове подсказана примером, который я привел, где , но E ( f ( X ) ) > 0 , Вы можете ограничить как семейство функций (ограниченные, ограниченные производные, интегрируемые), так и распределение (гладкие, ограниченные, ограниченные моменты), и у вас все еще есть эти примеры. Достаточно иметь симметричную неотрицательную функцию, равную нулю в среднем распределении. Тем не менее, все зависит от ограничений в вашей конкретной проблеме. В общем случае я считаю аддитивную природу фундаментальной.f(E(X))=0E(f(X))>0
2010 г.
@Ian: доказательства неравенства Чернова и Азумы-Хеффдинга используют аргументы, напоминающие об этом, так что вы можете прочитать их для вдохновения. См., Например, книгу Митценмахера и Упфаля о рандомизации в вычислительной технике.
Уоррен Шуди
3

Для понимания рассмотрим распределение, сконцентрированное на двух значениях; скажем, с равными вероятностями 1/2, что оно равно 1 или 3, откуда . Возьмем N > > 0 и ε > 0 . Рассмотрим функции f, для которых f ( 1 ) = f ( 3 ) = N ϵ и f ( E [ x ] ) = f ( 2 ) = ϵ . ДелаяE[x]=2N>>0ϵ>0ff(1)=f(3)=Nϵf(E[x])=f(2)=ϵ достаточно мала инепрерывносвязывая f между этими тремя точками, мы можем сделать кривизну f настолько малой, насколько это необходимо. затемϵff

, покаE[f(x)]=Nϵ

.N=Nϵ/ϵ=E[f(x)]/f(E[x])φ(f)

Это показывает, что должно быть сколь угодно большим.φ(f)

whuber
источник