Если - выпуклая функция, то неравенство Дженсена утверждает, что , и mutatis mutandis, когда вогнута. Очевидно, что в худшем случае вы не можете получить верхнюю границу в терминах для выпуклого , но есть ли граница, которая идет в этом направлении, если выпуклый, но не слишком выпуклый? Существует ли некоторая стандартная граница, которая задает условия для выпуклой функции (и, возможно, распределения, если необходимо), которая позволила бы вам сделать вывод, что , гденекоторая функция кривизны / степени выпуклости ? Возможно, что-то похожее на состояние Липшица?
21
Ответы:
РЕДАКТИРОВАТЬ: оригинальная версия пропустила абсолютное значение. извиняюсь!!
Привет, Ян. Я кратко опишу два выборочных неравенства, одно из которых использует границу Липшица, другое - границу второй производной, а затем расскажу о некоторых трудностях в этой задаче. Хотя я избыточен, поскольку подход, использующий одну производную, объясняет, что происходит с большим количеством производных (через Тейлора), оказывается, что вторая производная версия довольно хороша.
Во-первых, с привязкой по Липшицу: просто пересмотрите стандартное неравенство Дженсена. Применяется тот же трюк: вычислить расширение Тейлора с ожидаемым значением.
В частности, пусть имеет соответствующую меру µ и положим m : = E ( x ) . Если f имеет постоянную Липшица L , то по теореме ТейлораX μ m:=E(x) f L
где (обратите внимание, что x ≤ m и x > m возможны). Используя это и переделывая доказательство Дженсена (я параноик и проверил, что стандартное действительно есть в Википедии),z∈[m,x] x≤m x>m
Теперь предположим, что . В этом случае,|f′′(x)|≤λ
и так
Я хотел бы кратко упомянуть несколько вещей. Извините, если они очевидны.
Во-первых, вы не можете просто сказать «wlog », сдвигая распределение, потому что вы меняете отношение между f и μ .E(X)=0 f μ
Далее следует, что оценка должна каким-то образом зависеть от распределения. Чтобы увидеть это, представьте, что и f ( x ) = x 2 . Независимо от значения σ , вы все равно получите f ( E ( X ) ) = f ( 0 ) = 0 . С другой стороны, E ( f ( X ) ) = E ( XX∼Gaussian(0,σ2) f(x)=x2 σ f(E(X))=f(0)=0 . Таким образом, изменяя σ , вы можете сделать зазор между двумя величинами произвольным! Интуитивно понятно, что больше массы отталкивается от среднего значения, и поэтому для любой строго выпуклой функции E ( f ( X ) ) будет увеличиваться.E(f(X))=E(X2)=σ2 σ E(f(X))
Наконец, я не вижу, как получить мультипликативный предел, как вы предлагаете. Все, что я использовал в этом посте, является стандартным: теорема Тейлора и производные оценки являются статистикой, и они автоматически дают аддитивные, а не мультипликативные ошибки.
Я подумаю об этом, и что-нибудь напишу. Неясная интуиция заключается в том, что потребуются очень напряженные условия как для функции, так и для распределения, и что аддитивная граница фактически лежит в основе этого.
источник
Для понимания рассмотрим распределение, сконцентрированное на двух значениях; скажем, с равными вероятностями 1/2, что оно равно 1 или 3, откуда . Возьмем N > > 0 и ε > 0 . Рассмотрим функции f, для которых f ( 1 ) = f ( 3 ) = N ϵ и f ( E [ x ] ) = f ( 2 ) = ϵ . ДелаяE[x]=2 N>>0 ϵ>0 f f(1)=f(3)=Nϵ f(E[x])=f(2)=ϵ достаточно мала инепрерывносвязывая f между этими тремя точками, мы можем сделать кривизну f настолько малой, насколько это необходимо. затемϵ f f
, покаE[f(x)]=Nϵ
.N=Nϵ/ϵ=E[f(x)]/f(E[x])≤φ(f)
Это показывает, что должно быть сколь угодно большим.φ(f)
источник