покрытие доверительных интервалов регуляризованными оценками

21

Предположим, я пытаюсь оценить большое количество параметров по многомерным данным, используя некие регуляризованные оценки. Регуляризатор вносит некоторую погрешность в оценки, но это все же может быть хорошим компромиссом, потому что уменьшение дисперсии должно более чем компенсировать это.

Проблема возникает, когда я хочу оценить доверительные интервалы (например, используя приближение Лапласа или начальную загрузку). В частности, смещение в моих оценках приводит к плохому покрытию в моих доверительных интервалах, что затрудняет определение частотных свойств моей оценки.

Я нашел несколько работ, обсуждающих эту проблему (например, «Асимптотические доверительные интервалы в регрессии гребня на основе расширения Эджворта» ), но математика в основном выше моей головы. В связанном документе уравнения 92-93, кажется, обеспечивают поправочный коэффициент для оценок, которые были упорядочены с помощью регрессии гребня, но мне было интересно, существуют ли хорошие процедуры, которые будут работать с рядом различных регуляризаторов.

Даже исправление первого порядка было бы чрезвычайно полезно.

Дэвид Дж. Харрис
источник
4
+1 своевременный и важный вопрос - хотя я не уверен, что в настоящее время кто-либо может ответить на этот вопрос утвердительно (я думаю, мы просто не знаем, как это сделать правильно, и если бы я знал, у меня было бы несколько летописей Статистические документы выстроились в очередь). Связанный вопрос: stats.stackexchange.com/questions/91462/… Мы знаем, что самозагрузка выполняется исключительно в таких ситуациях, но это не поможет.
Момо
Спасибо за ссылку. Не могли бы вы уточнить, что вы имели в виду в отношении начальной загрузки?
Дэвид Дж. Харрис
Кроме того, я все еще надеюсь, что у кого-то могут быть методы, которые хорошо работают для не разреженных регуляризаторов. Я предполагаю, что штраф L1 делает вещи особенно трудными из-за всех оценок, накопленных в нуле. Еще раз спасибо.
Дэвид Дж. Харрис
1
сd
1
Работа Рубена Дезюра, Питера Бюльмана, Лукаса Мейера и Николая Майнсхаузена, насколько мне известно, является самым последним и исчерпывающим отчетом о выводах в многомерных условиях.
NRH

Ответы:

4

Недавно появилась статья, в которой точно рассматривается ваш вопрос (если вы хотите выполнить регрессию на ваших данных, как я понимаю) и, к счастью, представлены выражения, которые легко вычислить (доверительные интервалы и проверка гипотез для многомерной регрессии).

Также вас может заинтересовать недавняя работа Питера Бюлмана на эту тему. Но я считаю, что первая статья дает вам то, что вы ищете, и содержание легче усваивается (я тоже не статистик).

jpmuc
источник
+1 Интересная статья. Таким образом, кажется, есть по крайней мере три конкурирующих идеи о том, как подходить к этим проблемам и из того, что я вижу, они не тесно связаны. Тогда есть также теорема о невозможности от journals.cambridge.org/action/… Будет интересно посмотреть, как это закончится и что станет каноническим.
Момо
Спасибо. Возможно, это не то, что я на самом деле могу реализовать, но, похоже, математика работает для различных регуляризованных оценок.
Дэвид Дж. Харрис,
1

http://cran.r-project.org/web/packages/hdi/index.html

Это то, что вы ищете?

Description
Computes confidence intervals for the l1-norm of groups of regression parameters in a hierarchical
clustering tree.
Tagar
источник
Я надеялся на что-то, что сработало бы для различных (в основном не разреженных) регуляризаторов. Спасибо хоть.
Дэвид Дж. Харрис