Неравенство Oracle: в основных терминах

14

Я просматриваю статью, в которой используется неравенство оракула, чтобы что-то доказать, но я не могу понять, что он даже пытается сделать. Когда я искал в Интернете информацию о «Неравенстве Oracle», некоторые источники указали мне на статью «Кандес, Эммануэль Дж.« Современная статистическая оценка через неравенства оракула ». "который можно найти здесь https://statweb.stanford.edu/~candes/papers/NonlinearEstima.pdf . Но эта книга кажется мне слишком тяжелой, и я считаю, что у меня нет некоторых предпосылок.

Мой вопрос: как бы вы объяснили, что такое неравенство оракула для не математического специалиста (включая инженеров)? Во-вторых, как бы вы порекомендовали им пройти предварительные условия / темы, прежде чем пытаться изучать что-то вроде вышеупомянутой книги.

Я настоятельно рекомендую ответить на этот вопрос тому, кто обладает конкретным пониманием и большим опытом работы в области статистики высокого уровня.

Уолкотт
источник
2
Может ли кто-нибудь с более чем 1k репутацией предложить щедрость по этому вопросу. Это действительно помогло бы. Я не думаю, что обычные пользователи резюме были бы знакомы с этой концепцией, поскольку большинство пользователей используют статистику для анализа данных, а не теоретического анализа, хотя, как сообщество, полностью основанное на статистике, я считаю, что должен быть кто-то, кто мог бы адекватно ответить на это. Я считаю, что этот вопрос не получил достаточного внимания.
Уолкотт
1
Я думал об одном и том же вопросе
Jeza
«Определение», приведенное на стр. 22 ссылки «Неравенство оракула связывает эффективность реального оценщика с идеальной оценкой, которая опирается на совершенную информацию, предоставленную оракулом, и которая недоступна на практике». Разве это не передает вам суть определения?
Марк Л. Стоун
2
@ Марк Л. Камень для меня, это не так
Jeza
1
Даже если вы посмотрите на пример и обсуждение, приведенные в нескольких предыдущих предложениях, т. Е. На утверждение и обсуждение теоремы 4.1, как на пример неравенства оракула? С точки зрения непрофессионала: ну и дела, мы не знаем оптимальное значение (предоставленное оракулом) коэффициента усадки, которое мы должны использовать. Но зная, что оптимальное значение коэффициента усадки может улучшить MSE не более чем на 2 по сравнению с отсутствием оптимального коэффициента усадки от оракула.
Марк Л. Стоун

Ответы:

8

Я постараюсь объяснить это в линейном случае. Рассмотрим линейную модель Когда (число независимых переменных меньше или равно количеству наблюдений) и расчетная матрица имеет полный ранг, наименьший квадрат оценки равен и ошибка прогноза из которого мы можем вывести Это означает, что каждый параметр оценивается с квадратом точностиТаким образом, ваша общая точность

Yi=j=1pβjXi(j)+ϵi,i=1,...,n.
pnb
b^=(XTX)1XTY
X(b^β0)22σ2
EX(b^β0)22n=σ2np.
βj0σ2/n,j=1,...,p.(σ2/n)p.

Что теперь, если число наблюдений меньше числа независимых переменных ? Мы «верим», что не все наши независимые переменные играют роль в объяснении , поэтому только некоторые, скажем, , отличны от нуля. Если бы мы знали, какие переменные отличны от нуля, мы могли бы пренебречь всеми остальными переменными, и с помощью приведенного выше аргумента общая квадратичная точность была бы(p>n)Yk(σ2/n)k.

Поскольку набор ненулевых переменных неизвестен, нам нужно некоторое наказание за регуляризацию (например, ) с параметром регуляризации (который контролирует количество переменных). Теперь вы хотите получить результаты, аналогичные рассмотренным выше, вы хотите оценить квадратичную точность. Проблема в том, что ваша оптимальная оценка теперь зависит от . Но важным фактом является то, что при правильном выборе вы можете получить верхнюю границу ошибки предсказания с высокой вероятностью, то есть «неравенство оракула» Обратите внимание на дополнительный факторl1λβ^λλ

X(β^β0)22nconst.σ2logpnk.
logp, которая является ценой за незнание множества ненулевых переменных. « » зависит только от или .const.pn
Дато Гоголашвили
источник
Строго говоря, нам не нужно, чтобы количество наблюдений было меньше количества независимых переменных, чтобы все последующие части были правильными.
jbowman
Можете ли вы объяснить, как получилось уравнение ожидания (уравнение от второго до последнего) и неравенство (последнее уравнение)?
user13985
X(b^β0)22σ2 имеет распределение хи-квадрат с p степенями свободы, поэтому его ожидание равно . Последнее неравенство является неравенством оракула. Доказательство не так тривиально, я могу рекомендовать эту книгу: Статистика для многомерных данных: методы, теория и приложения, глава 6.(σ2/n)p
Дато Гоголашвили