Интуиция позади, почему парадокс Штейна применим только в измерениях

46

Пример Стейна показывает, что оценка максимального правдоподобия n нормально распределенных переменных со средними значениями μ1,,μn и дисперсиями 1 недопустима (при функции квадрата потерь) тогда и только тогда, когда n3 . Для ясного доказательства см. Первую главу «Вывод в крупном масштабе: эмпирические байесовские методы оценки, тестирования и прогнозирования » Брэдли Эффрона.

xN(μ,1)Ex2μ2+n

Мой вопрос: какое свойство мерного пространства (для ) отсутствует в что облегчает пример Штейна? Возможные ответы могут быть о кривизне сферы или о чем-то совершенно ином.nn3R2n

Другими словами, почему MLE допустимо в ?R2


Изменить 1: В ответ на озабоченность @mpiktas о 1,31 после 1,30:

Eμ(zμ^2)=Eμ(S(N2S)2)=Eμ((N2)2S).

μi^=(1N2S)zi
так чтоПоэтому имеем:
Eμ(μi^zi)=Eμ(1N2S+2zi2S2).

2i=1NEμ(μi^zi)=2N2Eμ(N(N2)S)+4Eμ((N2)S)=2NEμ2(N2)2S.

Редактировать 2 : В этой статье Стейн доказывает, что MLE допустимо для .N=2

Har
источник
4
@mpiktas Это не так неприменимо, как кажется. Ситуация похожа на ANOVA после того, как мы применяем снижение достаточности. Это намекает на то, что обычные оценки ANOVA средних групп недопустимы при условии, что мы пытаемся оценить средние значения более 3 групп (что оказывается правдой). Я бы порекомендовал взглянуть на доказательства того, что MLE допустимо для и посмотреть, где они терпят неудачу при попытке расширить до а не просто посмотреть на доказательства того, что оценщик Штейна делает то, что заявляет, что легко сделать один раз. Вы на самом деле имеете в виду оценщик. N=1,2N=3
парень
2
... и знаю, как использовать лемму Стейна. Я думаю, что это на самом деле немного менее прямолинейно, чем я, хотя 6 минут назад.
парень
2
Я согласен. Есть ли у вас хорошие ссылки на это (кроме оригинальной статьи). Я нашел оригинальную статью Штейна чрезмерно вычислительной и надеялся, что кто-то разработал другой метод за последние пятьдесят лет.
Har
2
Доказательством того, что меня учили, было доказательство Брауна и Хванга с 1983 года, которое использует метод, предложенный Блайтом с начала 1950-х годов. Он довольно общий (более общий, чем результат Стейна в том смысле, что он работает для экспоненциального семейства) и, я полагаю, весьма отличается от Стейна. Но это не тривиально.
парень
2
@ Отличный вопрос! (+1)
suncoolsu

Ответы:

43

Дихотомия между случаями и для допустимости MLE среднего значения мерной многомерной нормальной случайной величины, безусловно, шокирует.d<3d3d

Есть еще один очень известный пример вероятности и статистики, в котором существует дихотомия между случаями и . Это повторение простого случайного блуждания по решетке . То есть мерное простое случайное блуждание является рекуррентным в 1 или 2 измерениях, но является переходным в измерениях. Аналог непрерывного времени (в форме броуновского движения) также имеет место.d<3d3Zddd3

Оказывается, что эти два тесно связаны.

Ларри Браун доказал, что два вопроса по сути эквивалентны. То есть, лучший инвариант оценщик о -мерном многомерного нормального вектора средней допустимо тогда и только тогда , когда - мерное броуновское движение является возвратным.μ^μ^(X)=Xdd

На самом деле его результаты идут гораздо дальше. Для любой разумной (т. Е. Обобщенной байесовской) оценки с ограниченным (обобщенным) риском существует явная (!) Соответствующая мерная диффузия такая, что оценка допустима тогда и только тогда, когда соответствующая диффузия является рекуррентной.μ~μ~(X)L2dμ~

Локальное среднее этой диффузии, по существу , расхождение между этими двумя оценками, т.е. и ковариация диффузии . Отсюда легко видеть, что для случая MLE мы восстанавливаем (пересчитываем) броуновское движение.μ~μ^2Iμ~=μ^=X

Таким образом, в некотором смысле мы можем рассмотреть вопрос о допустимости через призму случайных процессов и использовать хорошо изученные свойства диффузий, чтобы прийти к желаемым выводам.

Рекомендации

  1. Л. Браун (1971). Допустимые оценки, рекуррентные диффузии и неразрешимые краевые задачи . Анна. Математика Стат. том 42, нет 3, с. 855–903.
  2. Р. Н. Бхаттачарья (1978). Критерии рекуррентности и существования инвариантных мер для многомерных диффузий . Анна. Проб. том 6, нет. 4, 541–553.
кардинальный
источник
2
На самом деле, что-то вроде этого я и надеялся. Связь с другой областью математики (будь то дифференциальная геометрия или случайные процессы), которая показывает, что допустимость для была не просто случайностью. Отличный ответ! n=2
Har
Вдохновленный вашим ответом, я предоставил некоторые детали, а также добавил геометрическое объяснение в ответ на эту проблему в МО: mathoverflow.net/questions/93745/…
Henry.L
21

@cardinal дал отличный ответ (+1), но вся проблема остается загадочной, если только вы не знакомы с доказательствами (а я нет). Поэтому я думаю, что остается вопрос относительно того, что является интуитивной причиной того, что парадокс Стейна не появляется в и .RR2

Я нахожу очень полезным регрессионную перспективу, предложенную в Стивене Стиглере, 1990, «Галтонианская перспектива оценки усадки» . Рассмотрим независимые измерения , каждый из которых измеряет некоторый базовый (ненаблюдаемый) и выбирается из . Если бы мы каким-то образом знали , мы могли бы составить график из пар:XiθiN(θi,1)θi(Xi,θi)

Парадокс Штейна: регрессионная перспектива

Диагональная линия соответствует нулевому шуму и совершенной оценке; на самом деле шум не равен нулю, и поэтому точки смещены от диагональной линии в горизонтальном направлении . Соответственно, можно рассматривать как линию регрессии на . Однако мы знаем и хотим оценить , поэтому нам лучше рассмотреть линию регрессии на - которая будет иметь другой наклон, смещенный по горизонтали , как показано на рисунке (пунктирная линия).θ=Xθ=XXθXθθX

Цитата из статьи Стиглера:

Этот галтоновский взгляд на парадокс Штейна делает его почти прозрачным. «Обычные» оценки выводятся из теоретической линии регрессии на . Эта строка была бы полезна, если бы нашей целью было предсказать из , но наша проблема обратная, а именно предсказать из используя сумму квадратов ошибок как критерий. Для этого критерия оптимальные линейные оценки задаются линией регрессии наименьших квадратов наθ^i0=XiXθXθθX(θiθ^i)2θXи оценки Джеймса-Стейна и Эфрона-Морриса сами являются оценками этого оптимального линейного оценивания. «Обычные» оценки получены из неправильной линии регрессии, оценки Джеймса-Стейна и Эфрона-Морриса получены из приближений к правой линии регрессии.

И теперь наступает решающий момент (акцент добавлен):

Мы даже можем понять, почему необходимо: если или , линия наименьших квадратов на должна проходить через точки , и, следовательно, для или , две линии регрессии ( на и на ) должны совпадать в каждом .k3k=12θX(Xi,θi)k=12XθθXXi

Я думаю, что это очень ясно показывает, что особенного в и .k=1k=2

амеба говорит восстановить монику
источник