У меня есть вопрос о расчете коэффициента усадки Джеймса-Стейна в 1977 году в журнале Scientific American Брэдли Эфрона и Карла Морриса «Парадокс Штейна в статистике» .
Я собрал данные для бейсболистов, и они приведены ниже:
Name, avg45, avgSeason
Clemente, 0.400, 0.346
Robinson, 0.378, 0.298
Howard, 0.356, 0.276
Johnstone, 0.333, 0.222
Berry, 0.311, 0.273
Spencer, 0.311, 0.270
Kessinger, 0.289, 0.263
Alvarado, 0.267, 0.210
Santo, 0.244, 0.269
Swoboda, 0.244, 0.230
Unser, 0.222, 0.264
Williams, 0.222, 0.256
Scott, 0.222, 0.303
Petrocelli, 0.222, 0.264
Rodriguez, 0.222, 0.226
Campaneris, 0.200, 0.285
Munson, 0.178, 0.316
Alvis, 0.156, 0.200
avg45
является средним значением после летучих мышей и обозначается как в статье. это конец сезона в среднем.avgSeason
Оценка Джеймса-Стейна для среднего ( ) задается как а коэффициент усадки - (стр. 5 статьи Scientific American 1977 г. )
где - число неизвестных средних. Здесь 18 игроков, поэтому . Я могу вычислить используя значения. Но я не знаю, как рассчитать . Авторы говорят, что для данного набора данных.avg45
Я пытался использовать оба и для но они не дают правильный ответ
Кто-нибудь может быть достаточно любезен, чтобы сообщить мне, как рассчитать для этого набора данных?
Ответы:
Параметр - это (неизвестная) общая дисперсия компонент вектора, каждая из которых, как мы предполагаем, нормально распределена. Для данных по бейсболу мы имеем 45 ⋅ Y i ∼ b i n o m ( 45 , p i ) , поэтому нормальное приближение к биномиальному распределению дает (принимая ^ p i = Y i )σ2 45⋅Yi∼binom(45,pi) pi^=Yi
Очевидно , что в этом случае дисперсии не равны, но если бы они были равны общему значению , то мы могли бы оценить его с объединенной оценки сг 2 = р ( 1 - р ) где р представляет собой великое среднее р =1
Вы можете проверить это с помощью следующего кода R. Вот данные:
и вот оценка для :σ2
который является σ 2 ≈ 0,004332392 . Коэффициент усадки бумаги тогдаσ^2≈0.004332392
источник
Efron B. & Morris C. (1975). Анализ данных с использованием оценки Штейна и ее обобщений. Журнал Американской статистической ассоциации, 70 (350), 311-319 (ссылка на pdf)
или более подробно
Efron B. & Morris C. (1974). Анализ данных с использованием оценки Штейна и ее обобщений. R-1394-OEO, The RAND Corporation, март 1974 г. (ссылка на pdf) .
На странице 312 вы увидите, что Efron & Morris используют преобразование этих данных в дугу-грех, так что дисперсия средних значений ватина составляет приблизительно единицу:
Так что это значения оценки Штейна. Для Клементе мы получаем .290, что довольно близко к .294 из статьи 1977 года.
источник