Если усадка применяется умным способом, всегда ли она работает лучше для более эффективных оценщиков?

11

Предположим, у меня есть два оценщика и которые являются согласованными оценками одного и того же параметра и такого, что с в смысле psd. Таким образом, асимптотически более эффективен, чем . Эти две оценки основаны на различных функциях потерь. β 2β0β^1β^2β0V1V2 β 1 β 2

n(β^1β0)dN(0,V1),n(β^2β0)dN(0,V2)
V1V2β^1β^2

Теперь я хочу найти некоторые методы сжатия, чтобы улучшить свойства конечных выборок моих оценок.

Предположим, что я нашел метод сжатия, который улучшает оценку в конечном образце и дает мне значение MSE, равное . Означает ли это, что я могу найти подходящую технику сжатия для применения к , которая даст мне MSE не больше, чем ? γ 2 β 1β^2γ^2β^1 γ^2

Другими словами, если усадка применяется разумно, всегда ли она работает лучше для более эффективных оценщиков?

Алик
источник

Ответы:

4

Позвольте мне предложить немного скучный контрпример. Скажем, что не только асимптотически более эффективен, чем , но и достигает нижней границы Крамера Рао. Умная техника сжатия для будет такой: с помощью . Асимптотическая дисперсия равна где последнее равенство использует лемму в работе Хаусман в . У нас есть β 2 β 2 β * 2 =ш & beta ; 2+(1-ш) β 1мас(0,1) β * 2 V*=AVг(ш β 2+(1-ш) β 1)=β^1β^2β^2

β^2=wβ^2+(1w)β^1
w(0,1)β^2V 2 - V * = V 2 ( 1 - ш 2 ) - V 1 ( 1 - W 2 ) 0 β 2
V=Avar(wβ^2+(1w)β^1)=Avar(w(β^2β^1)+β^1)=V1+w2(V2V1)
V2V=V2(1w2)V1(1w2)0
поэтому существует асимптотическое улучшение риска (нет условий смещения). Таким образом, мы нашли метод сжатия, который дает некоторые асимптотические (и, следовательно, надеюсь, конечный образец) улучшения по сравнению с . Тем не менее, нет аналогичной оценки усадки которая следует из этой процедуры.β^2β^1

Дело здесь, конечно, в том, что сжатие выполняется в направлении эффективного оценщика и, следовательно, не применимо к самому эффективному оценщику. Это кажется довольно очевидным на высоком уровне, но я думаю, что в конкретном примере это не так очевидно ( MLE и метод оценки моментов для равномерного распределения могут быть примером?).

Матиас Шмидтблайхер
источник
1
Спасибо за интересный пример! (+1) Однако, мне не ясно, что это следует рассматривать как контрпример: он асимптотический и не показывает, что нельзя улучшить, чтобы иметь такой же или более низкий риск. (Фактически, ваш автоматически в лучшем случае имеет тот же риск, что и .) Чтобы предоставить контрпример, риск изменения должен быть меньше, чем риск , и не ясно, что это возможно с этой схемой. β^1β^2β^1β^2β^1
user795305
Спасибо и пункт (ы) приняты. Позвольте мне, однако, отметить, что нигде в вопросе не было указано, что MSE модифицированного должно быть ниже, чем у . Таким образом, является допустимым методом сжатия в этом контексте. Но я согласен, что это только частичный ответ, и я с нетерпением жду возможности узнать, что другие люди скажут по этому вопросу. β^2β^1β^2
Матиас
1
В абзаце, который начинается «Предположим, я нашел ...», OP, кажется, указывает это. Я неправильно понимаю? В дальнейшем пусть звезды обозначают модифицированные оценки так, что для некоторых (возможно, усадочных) функций . Предположим, мы находим так, что . В указанном абзаце OP спрашивает, можем ли мы найти какой-нибудь для такого . β^j=fj(β^j)fjβ^2risk(β^2)risk(β^2)f1risk(β^1)risk(β^2)
user795305
Понимаю. Если это вопрос, то - просто тождество, и ответ в этом примере положительный. Я читаю вопрос как «Если мы можем найти функцию чтобы , есть ли существует так что ? " f1f(β,x)risk(f(β^2,x))<risk(β^2)g(β,x)risk(g(β^1,x))<risk(β^1)
Матиас
1
спасибо за то, что поделились этими кредитами, хотя я и не ответил на твой вопрос ...
Матиас
-2

Это интересный вопрос, в котором я хочу вначале указать на некоторые основные моменты.

  • Две оценки соответствуют
  • β 2β^1 более эффективен, чем так как он меньше вариацийβ^2
  • Функции потери не совпадают
  • один метод усадки применяется к одному так, чтобы он уменьшал изменение, которое само по себе в итоге дает лучшую оценку
  • Вопрос : Другими словами, если усадка применяется умно, всегда ли она работает лучше для более эффективных оценщиков?

Фундаментально, можно улучшить оценку в определенной структуре, такой как беспристрастный класс оценок. Однако, как вы указали, различные функции потерь усложняют ситуацию, поскольку одна функция потерь может минимизировать квадратичные потери, а другая минимизирует энтропию. Более того, использование слова «всегда» очень сложно, поскольку, если один оценщик является лучшим в классе, вы не можете претендовать на лучшую оценку, логически говоря.

Для простого примера (в той же самой структуре), давайте две оценки, а именно, Мост ( регрессия с нормы) и Лассо (штраф штрафовал за первую норму вероятности) и разреженный набор параметров, а именно , линейная модель , нормальность члена ошибки, , известная , квадратичная функция потерь (ошибки наименьших квадратов) и независимость ковариат по . Давайте выберем для для первой оценки и для второй оценки. Тогда вы можете улучшить оценки, выбрав β y = x β + e e N ( 0 , σ 2 < ) σ x l p p = 3 p = 2 p 1lpβy=xβ+eeN(0,σ2<)σxlpp=3p=2p1что в итоге дает лучшую оценку с меньшей дисперсией. Тогда в этом примере есть шанс улучшить оценку.

Итак, мой ответ на ваш вопрос - да, учитывая, что вы принимаете ту же группу оценок и ту же функцию потерь, а также предположения.

TPArrow
источник
мне не понятно, что вы имеете в виду под . Учитывая две оценки (скажем, из-за наличия и в регуляризации наименьших квадратов , как вы обсуждали в своем ответе), вопрос о способах обработки этих оценок (скажем, с помощью сжатия). В частности, он спрашивает, существуют ли методы, которые могут привести к аналогичному улучшению (с точки зрения MSE) через согласованные и асимптотически нормальные оценки. Мне не ясно, что ваш ответ должен передать, связанный с этим. p = 3 p = 2 pp1p=3p=2p
user795305
@Ben Спасибо. вопрос касается усадки, и я попытался привести простой пример, где применяется усадка путем наложения норму на оценщик. Я вижу это довольно связанным. PS: ( норма наказывается вероятностью) расшифровывается как оператор наименьшей абсолютной усадки и выборал 1lpl1
TPArrow,
Это все еще не совсем понятно для меня. Вы предлагаете, чтобы мы взяли начальные оценки и а затем оценили проксимальный оператор , чтобы новые оценки были , для ? Если да, не могли бы вы предоставить доказательства (или какой-либо другой аргумент) для ваших утверждений относительно улучшения MSE? Ранее я пытался подчеркнуть, что вопрос заключается в оценках постобработки - какова ваша оценка для постобработки ? β^1β^2pα^jp=argminααβ^j22+λαpj{1,2}p=2,3
user795305
спасибо @Ben, я чувствую, что у нас нет консенсуса в определении усадки. Вы воспринимаете это как пост-процесс, а я как встроенную обработку. Я думаю, что мы оба правы, поскольку вопрос не учитывает тип усадки. PS: я думаю, что вы имеете в виду под усадкой, как с жестким порогом.
TPArrow
Усадка может быть как встроенной, так и последующей обработкой. Примеры, которые вы упомянули в своем ответе, касаются «усадки в потоке», а вопрос задается о «усадке после обработки». Обратите внимание, что в этом вопросе приводятся два оценщика и , а затем запрашивается метод сжатия для применения к или . Я думаю, что было бы целесообразно перечитать вопрос в свете этого. β^1β^2 β^1β^2
user795305