Оценка Джеймса-Стейна: Как Эфрон и Моррис вычислили в коэффициенте усадки для своего примера бейсбола?

18

У меня есть вопрос о расчете коэффициента усадки Джеймса-Стейна в 1977 году в журнале Scientific American Брэдли Эфрона и Карла Морриса «Парадокс Штейна в статистике» .

Я собрал данные для бейсболистов, и они приведены ниже:

Name, avg45, avgSeason    
Clemente, 0.400, 0.346    
Robinson, 0.378, 0.298    
Howard, 0.356, 0.276    
Johnstone, 0.333, 0.222    
Berry, 0.311, 0.273    
Spencer, 0.311, 0.270    
Kessinger, 0.289, 0.263    
Alvarado, 0.267, 0.210    
Santo, 0.244, 0.269    
Swoboda, 0.244, 0.230    
Unser, 0.222, 0.264    
Williams, 0.222, 0.256    
Scott, 0.222, 0.303    
Petrocelli, 0.222, 0.264    
Rodriguez, 0.222, 0.226    
Campaneris, 0.200, 0.285    
Munson, 0.178, 0.316    
Alvis, 0.156, 0.200

avg45является средним значением после летучих мышей и обозначается как в статье. это конец сезона в среднем.45yavgSeason

Оценка Джеймса-Стейна для среднего ( ) задается как а коэффициент усадки - (стр. 5 статьи Scientific American 1977 г. ) z

z=y¯+c(yy¯)
c
c=1(k3)σ2(yy¯)2,

где - число неизвестных средних. Здесь 18 игроков, поэтому . Я могу вычислить используя значения. Но я не знаю, как рассчитать . Авторы говорят, что для данного набора данных.kk=18(yy¯)2avg45σ2c=0.212

Я пытался использовать оба и для но они не дают правильный ответσx2σy2σ2c=0.212

Кто-нибудь может быть достаточно любезен, чтобы сообщить мне, как рассчитать для этого набора данных?σ2

Ананд
источник
1
Я знаю, что MAD ( en.wikipedia.org/wiki/Median_absolute_deviation ) часто используется для вейвлет-сжатия.
Робин Жирар

Ответы:

19

Параметр - это (неизвестная) общая дисперсия компонент вектора, каждая из которых, как мы предполагаем, нормально распределена. Для данных по бейсболу мы имеем 45 Y ib i n o m ( 45 , p i ) , поэтому нормальное приближение к биномиальному распределению дает (принимая ^ p i = Y i )σ245Yibinom(45,pi)pi^=Yi

p^inorm(mean=pi,var=pi(1pi)/45).

Очевидно , что в этом случае дисперсии не равны, но если бы они были равны общему значению , то мы могли бы оценить его с объединенной оценки сг 2 = р ( 1 - р ) где р представляет собой великое среднее р =1

σ^2=p^(1p^)45,
p^ Похоже, что именно это сделали Эфрон и Моррис (в статье 1977 года).
p^=11845i=11845Yi=Y¯.

Вы можете проверить это с помощью следующего кода R. Вот данные:

y <- c(0.4, 0.378, 0.356, 0.333, 0.311, 0.311, 0.289, 0.267, 0.244, 0.244, 0.222, 0.222, 0.222, 0.222, 0.222, 0.2, 0.178, 0.156)

и вот оценка для :σ2

s2 <- mean(y)*(1 - mean(y))/45

который является σ 20,004332392 . Коэффициент усадки бумаги тогдаσ^20.004332392

1 - 15*s2/(17*var(y))

c0.2123905k2k3


источник
Отличное объяснение, мне нравится нормальное приближение бинома.
Чемберлен Фонча
14

c=0.212

Efron B. & Morris C. (1975). Анализ данных с использованием оценки Штейна и ее обобщений. Журнал Американской статистической ассоциации, 70 (350), 311-319 (ссылка на pdf)

или более подробно

Efron B. & Morris C. (1974). Анализ данных с использованием оценки Штейна и ее обобщений. R-1394-OEO, The RAND Corporation, март 1974 г. (ссылка на pdf) .

На странице 312 вы увидите, что Efron & Morris используют преобразование этих данных в дугу-грех, так что дисперсия средних значений ватина составляет приблизительно единицу:

> dat <- read.table("data.txt", header=T, sep=",")
> yi  <- dat$avg45
> k   <- length(yi)
> yi  <- sqrt(45) * asin(2*yi-1)
> c   <- 1 - (k-3)*1 / sum((yi - mean(yi))^2)
> c
[1] 0.2091971

z

> zi  <- mean(yi) + c * (yi - mean(yi))
> round((sin(zi/sqrt(45)) + 1)/2,3) ### back-transformation
[1] 0.290 0.286 0.282 0.277 0.273 0.273 0.268 0.264 0.259
[10] 0.259 0.254 0.254 0.254 0.254 0.254 0.249 0.244 0.239

Так что это значения оценки Штейна. Для Клементе мы получаем .290, что довольно близко к .294 из статьи 1977 года.

Wolfgang
источник