Каждое утверждение, которое я нахожу относительно оценки Джеймса-Стейна, предполагает, что оцениваемые случайные переменные имеют одинаковую (и единичную) дисперсию.
Но во всех этих примерах также упоминается, что оценка JS может использоваться для оценки величин, не имеющих ничего общего друг с другом. Пример википедии является скорость света, потребление чая в Тайване, и вес свиней в штате Монтана. Но, вероятно, ваши измерения по этим трем величинам будут иметь разные «истинные» отклонения. Это представляет проблему?
Это связано с большей концептуальной проблемой, которую я не понимаю, связанной с этим вопросом: оценка Джеймса-Стейна: как Эфрон и Моррис рассчитали в коэффициенте усадки для своего примера бейсбола? Мы рассчитываем коэффициент усадки следующим образом:
Интуитивно я думаю, что член самом деле σ 2 i - различный для каждой оцениваемой величины. Но обсуждение в этом вопросе говорит только об использовании объединенной дисперсии ...
Я был бы очень признателен, если бы кто-нибудь смог разобраться в этой путанице!
источник
Ответы:
На этот вопрос явным образом ответили в классической серии работ по оценке Джеймса-Стейна в эмпирическом байесовском контексте, написанной в 1970-х годах Efron & Morris. Я в основном имею в виду:
Эфрон и Моррис, 1973, Правило оценки Штейна и его конкуренты - эмпирический байесовский подход
Эфрон и Моррис, 1975, анализ данных с оценкой Штейна и ее обобщения
Эфрон и Моррис, 1977, парадокс Штейна в статистике
Тем не менее, они приводят еще один пример, который оценивает уровень токсоплазмоза в ряде городов Сальвадора. В каждом городе было опрошено разное количество людей, поэтому можно думать, что индивидуальные наблюдения (уровень токсоплазмоза в каждом городе) имеют разные отклонения (чем меньше число опрошенных, тем выше отклонение). Интуиция, безусловно, заключается в том, что точки данных с низкой дисперсией (низкой неопределенностью) не нужно сокращать так сильно, как точки данных с высокой дисперсией (высокой неопределенностью). Результат их анализа показан на следующем рисунке, где это действительно можно увидеть:
Те же данные и анализ представлены также в гораздо более техническом документе 1975 года, в гораздо более элегантной форме (хотя, к сожалению, не показаны отдельные отклонения), см. Раздел 3:
Соответствующий раздел в статье 1973 года - это Раздел 8, и он немного сложнее. Интересно, что у них есть явный комментарий на предложение, сделанное @guy в комментариях выше:
источник