Почему оценку Джеймса-Стейна называют оценкой «усадки»?

19

Я читал об оценке Джеймса-Стейна. В этих примечаниях определяется как

θ^=(1p2X2)X

Я прочитал доказательство, но я не понимаю следующее утверждение:

Геометрически оценка Джеймса – Стейна сжимает каждый компонент X направлении начала координат ...

Что точно означает «сжимает каждый компонент X направлении источника»? Я думал о чем-то вроде

θ^02<X02,
что верно в этом случае до тех пор, пока (p+2)<X2 , так как
θ^=X2(p+2)X2X.

Это то, что люди имеют в виду, когда говорят «сжимаются к нулю», потому что в смысле нормы L2 оценка JS ближе к нулю, чем к X ?

Дополнение от 22.09.2017 . Сегодня я понял, что, возможно, я слишком усложняю вещи. Кажется, что люди действительно имеют в виду, что если вы умножаете X на что-то меньше 1 , а именно, на термин X2(p+2)X2 , каждый компонент X будет меньше, чем раньше.

3x89g2
источник

Ответы:

31

Иногда картинка стоит тысячи слов, поэтому позвольте мне поделиться ею с вами. Ниже вы можете увидеть иллюстрацию, взятую из статьи Брэдли Эфрона (1977) о парадоксе Стейна в статистике . Как видите, оценщик Штейна перемещает каждое из значений ближе к общему среднему. Это делает значения больше, чем общее среднее значение, меньше, а значения меньше, чем общее среднее значение, больше. Под усадкой мы понимаем перемещение значений к среднему или, в некоторых случаях , к нулю, например, к регуляризованной регрессии, которое сжимает параметры к нулю.

Иллюстрация оценщика Штейна из Эфрона (1977)

Конечно, речь идет не только об уменьшении самого себя, но то, что доказали Стейн (1956) и Джеймс и Стейн (1961) , состоит в том, что оценка Стейна доминирует в оценке максимального правдоподобия с точки зрения общей квадратичной ошибки,

Eμ(μ^JSμ2)<Eμ(μ^MLEμ2)

где , - оценка Штейна, а , где Обе оценки оцениваются по образцу . Доказательства приведены в оригинальных статьях и приложении к статье, на которую вы ссылаетесь. Говоря простым языком, они показали, что если вы одновременно делаете догадок, то с точки зрения общей квадратичной ошибки вы добьетесь большего успеха, сократив их, чем придерживаясь первоначальных догадок.' μ J S я ц M L Е я = х я х 1 , х 2 , ... , х р р > 2μ=(μ1,μ2,,μp)μ^iJSμ^iMLE=xix1,x2,,xpp>2

Наконец, оценка Штейна, безусловно, не единственная оценка, которая дает эффект усадки. Другие примеры вы можете проверить в этой записи блога или в упомянутой книге анализа байесовских данных Gelman et al. Вы также можете проверить темы о регуляризованной регрессии, например, какую проблему решают методы усадки? или Когда использовать методы регуляризации для регрессии? , для других практических применений этого эффекта.

Тим
источник
Статья кажется полезной, и я ее прочту. Я обновил свой вопрос, чтобы дополнительно объяснить мои мысли. Не могли бы вы взглянуть? Благодарность!
3x89g2
2
@ Я думаю, что аргумент Мисакова является законным в том смысле, что оценка Джеймса-Стейна приближает оценку к нулю, чем MLE. Ноль играет центральную и центричную роль в этой оценке, а оценки Джеймса-Стейна могут быть построены так, что они сужаются к другим центрам или даже подпространствам (как в George, 1986). Например, Эфрон и Моррис (1973) сжимаются к общему среднему значению, которое составляет диагональное подпространство. θ
Сиань