Единый взгляд на усадку: какова связь (если таковая имеется) между парадоксом Штейна, регрессией гребня и случайными эффектами в смешанных моделях?

65

Рассмотрим следующие три явления.

  1. Парадокс Штейна: учитывая некоторые данные из многомерного нормального распределения в Rn,n3 , среднее значение выборки не очень хорошая оценка истинного среднего. Можно получить оценку с меньшей среднеквадратичной ошибкой, если уменьшить все координаты среднего значения выборки до нуля [или в сторону их среднего значения, или фактически до любого значения, если я правильно понимаю].

    NB: обычно парадокс Штейна формулируется через рассмотрение только одной единственной точки данных из Rn ; Пожалуйста, поправьте меня, если это важно, и моя формулировка выше не верна.

  2. Регрессия гребня: учитывая некоторую зависимую переменную y и некоторые независимые переменные X , стандартная регрессия β=(XX)1Xy имеет тенденцию перекрывать данные и приводить к плохой производительности вне выборки. Часто можно уменьшить переоснащение, уменьшивβ до нуля: β=(XX+λI)1Xy .

  3. Случайные эффекты в многоуровневых / смешанных моделях: учитывая некоторую зависимую переменную y (например, рост учащегося), которая зависит от некоторых категориальных предикторов (например, идентификатор школы и пол учащегося), часто рекомендуется рассматривать некоторые предикторы как «случайные», то есть предположить, что средний рост ученика в каждой школе зависит от нормального распределения. Это приводит к сокращению оценок среднего роста в расчете на школу до глобального среднего.

У меня есть ощущение, что все это различные аспекты одного и того же феномена «усадки», но я не уверен и, конечно, не обладаю хорошей интуицией в этом. Итак, мой главный вопрос: действительно ли существует глубокое сходство между этими тремя вещами, или это только поверхностное подобие? Какова общая тема здесь? Какова правильная интуиция об этом?

Кроме того, вот некоторые кусочки этой головоломки, которые мне не очень подходят:

  • В регрессии гребня β не сокращается равномерно; Сжатие гребня на самом деле связано с разложением по сингулярному значению X, причем направления с малой дисперсией больше сжимаются (см., например, Элементы статистического обучения 3.4.1). Но оценка Джеймса-Стейна просто берет среднее значение выборки и умножает его на один коэффициент масштабирования. Как это сочетается?

    Обновление: см. Оценщик Джеймса-Стейна с неравными дисперсиями и, например, здесь относительно дисперсий β коэффициентов.

  • Среднее значение выборки является оптимальным для измерений ниже 3. Означает ли это, что когда в регрессионной модели имеется только один или два предиктора, регрессия гребня всегда будет хуже, чем обычные наименьшие квадраты? На самом деле, если подумать, я не могу представить себе ситуацию в 1D (т.е. простой, не множественной регрессии), где усадка гребня была бы полезной ...

    Обновление: Нет. См. При каких условиях регрессия гребня способна обеспечить улучшение по сравнению с обычной регрессией наименьших квадратов?

  • С другой стороны, среднее значение выборки всегда неоптимально в измерениях выше 3. Означает ли это, что при наличии более 3 предикторов регрессия гребня всегда лучше, чем OLS, даже если все предикторы некоррелированы (ортогональны)? Обычно регрессия гребня обусловлена ​​мультиколлинеарностью и необходимостью «стабилизировать» член .(XX)1

    Обновление: да! Смотрите ту же ветку, что и выше.

  • Часто возникают острые дискуссии о том, следует ли включать различные факторы в ANOVA в качестве фиксированных или случайных эффектов. Разве мы не должны, по одной и той же логике, всегда рассматривать фактор как случайный, если он имеет более двух уровней (или если существует более двух факторов? Теперь я в замешательстве)?

    Обновление: ?


Обновление: я получил несколько отличных ответов, но ни один из них не дает достаточно полной картины, поэтому я позволю вопросу «открыться». Я могу пообещать присудить награду не менее 100 баллов за новый ответ, который превзойдет существующие. Я в основном ищу объединяющую точку зрения, которая могла бы объяснить, как общее явление усадки проявляется в этих различных контекстах, и указать на принципиальные различия между ними.

амеба говорит восстановить монику
источник
Насколько я понимаю, что регрессия гребня (и его кузенов, таких как лассо и эластичная сеть) сжимает коэффициенты для коррелированных переменных, общих для всех наблюдений в регрессии (например, социально-экономический статус студента и средний балл), в то время как модель случайных эффектов выполняет сжатие коэффициентов для взаимоисключающие уровни или группы взаимосвязанных наблюдений (например, социально-экономический статус учащегося, сгруппированный по идентификатору школы).
RobertF
3
Я думаю, что лучшее место для получения объединяющего ответа - это посмотреть ключевое слово BLUP (для Best Linear Unbiased Predictor) esp. в животноводческой литературе. См., Например , опрос Робинсона в статистической науке. Или книга
Сиань,
2
@ Сиань: Большое спасибо, я уже сам нашел книгу Грубера, и хотя он, безусловно, много обсуждает как регрессию Джеймса-Стейна, так и Риджа, я не сразу нашел прямого сравнения этих двух (чтение всей книги не вариант для меня сейчас ...). Спасибо за ссылку на опрос Робинсона, я посмотрю; животноводство ! кто бы мог подумать. Кстати, я видел ваши комментарии по связанным темам, и думаю, что вы могли бы быть одним из тех, кто мог бы действительно дать удовлетворительный ответ здесь! Это было бы здорово; пока что ни один ответ не делает меня довольным.
говорит амеба, восстанови Монику
2
@ Сиань: Ну, ваши полезные комментарии ниже заставляют меня пропустить ответ от вас здесь. В любом случае, я начал читать Робинсона и понял, что «Лучший линейный непредвзятый предиктор» - это предвзятая оценка (очевидно, поскольку она реализует усадку)! Какая хорошая терминология.
говорит амеба: восстанови монику
4
Они хорошо разбираются в животноводстве: после того, как Casella & George в 1992 году «Gibbs for kids» пришлось сменить название, чтобы быть опубликованным, Wang & Gianola написали введение «Gibbs for pigs» в 1993 году на встрече Европейской ассоциации животноводства!
Сиань

Ответы:

30

Связь между оценкой Джеймса – Стейна и регрессией гребня

Пусть быть вектором наблюдения & thetas длины м , у ~ N ( θ , σ 2 I ) , оценщик Джеймс-Штейн, θ J S = ( 1 - ( т - 2 ) σ 2yθmyN(θ,σ2I)

θ^JS=(1(m2)σ2y2)y.
θθ г я д г е = 1minθyθ2+λθ2,σ2λ
θ^ridge=11+λy.
σ2λ

Связь между оценщиком Джеймса – Стейна и моделями случайных эффектов

Давайте сначала обсудим модели смешанных / случайных эффектов в генетике. Модель выглядит как Если нет фиксированных эффектов и , модель становится что эквивалентно установке оценки Джеймса-Стейна с некоторыми Байесовская идея.Z = I y = θ + e , θ N ( 0 , σ 2 θ I ) , eN ( 0 , σ

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

Связь между моделями случайных эффектов и регрессией гребня

Если мы сосредоточимся на моделях случайных эффектов, приведенных выше, Оценка эквивалентна решению задачи когда . Доказательство можно найти в главе 3 « Распознавание образов и машинное обучение» .min θy - Z θ 2 + λ θ 2 λ = σ 2 / σ 2 θ

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
λ=σ2/σθ2

Связь между (многоуровневыми) моделями случайных эффектов и генетикой

В приведенной выше модели случайных эффектов размерность равна а размерность равна . Если мы векторизуем как и, соответственно, повторяем , то мы имеем иерархическую / кластерную структуру, кластеров и каждый с единицами. Если мы регрессируем на повторяющемся , то мы можем получить случайное влияние на для каждого кластера, хотя это похоже на обратную регрессию. m × 1 , Z m × p Z ( m p ) × 1 , y p m v e c ( Z ) y Z yym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy


Подтверждение : первые три пункта в основном извлечены из этих двух китайских статей, 1 , 2 .

Randel
источник
(+1) Большое спасибо! Это очень полезно, и я обязательно загляну в учебник Бишопа, который хорошо знаю и с которым часто советуюсь. Я не ожидал найти там что-нибудь о смешанных моделях, но похоже, что раздел 3.3 «Байесовская линейная регрессия» на самом деле об этом, просто использует другую терминологию. Очень приятно знать! Но как вы относитесь к моим пулям?
говорит амеба, восстанови Монику
У вас слишком много вопросов в сообщении. :) 1) Как я отвечал выше, оценка Джеймса-Стейна и регрессия гребня эквивалентны, когда нет ковариат или просто единичной матрицы. 2,3,4) как упомянуто @James, количество предикторов ( выше) не обязательно равно измерению ответа . р мXpm
Рандель
Кстати, я не вижу, чтобы выборочное среднее / среднее использовалось в оценщике Джеймса-Стейна, оно на самом деле берет оценщик и затем сокращает его до . 0y0
Рандель
2
Оценка JS и регрессия гребня различны. Оценка регрессии гребня -мерного местоположения p-вектора соответствует расчетной матрице , что привело бы к оценке , в котором отсутствует (нелинейный!) член в знаменателе JS-оценкиI p ( 1 + λ ) - 1 I p yy 2pIp(1+λ)1Ipyy2
Эндрю М
3
Я думаю, что все зависит от того, что вы называете оценкой гребня. В раннем понимании Hoerl и Kennard (1970) действительно не зависит от данных. В более позднем смысле докторской диссертации Казеллы (1978) ручное определение заменяется функцией остаточной суммы квадратов. λλλ
Сиань
6

Я собираюсь оставить его в качестве упражнения для сообщества плоти этого ответа, но в целом причина усадка оценок будут * доминирующие * несмещенные оценки в конечных выборках, потому что Байес оценщики не могут доминировать , и многие оценки усадки могут быть получены как байесовские. 2 3 41234

Все это подпадает под эгиду теории принятия решений. Исчерпывающая, но довольно недружественная ссылка - «Теория точечной оценки» Лемана и Казеллы. Может быть, другие могут присоединиться с более дружескими ссылками?


1 расчетчиком от параметра на данных является доминировал другой оценщик , если для любого риска (например, среднеквадратичная ошибка) из равен или больше, чем , а бьет по крайней мере для одной . Другими словами, вы получаете равную или лучшую производительность для везде в пространстве параметров.δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2

& thetas ; л & delta ; ( Х ) = Е ( & thetas ; | Х ) Ом л & thetas ; 0 = { 1 , если  & thetas ; = & thetas ; 0 0 & thetas ; ≠ & thetas ; 0 & thetas ; 0 & delta ; ( Х ) = & thetas ; 0 & thetas ; 0 & thetas ; 02 Оценкой является Байес (в любом случае под квадратичной потерей), если это заднее ожидание , учитывая данные, при некотором предшествующем , например, где ожидание взято с апостериорным. Естественно, разные приоры приводят к разным рискам для разных подмножеств . Важным игрушечным примером являются предыдущие все предыдущие масса о точке . Тогда вы можете показать, что оценка Байеса является постоянной функциейθπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0который, конечно, имеет очень хорошую производительность в и рядом с , и очень плохую производительность в других местах. Но, тем не менее, над ним нельзя доминировать, потому что только эта оценка ведет к нулевому риску при .θ0θ0

3 Естественный вопрос: нужен ли байесовский метод оценки, над которым нельзя доминировать (называемый допустимым , хотя не будет ли неукротимым?)? Ответ почти. Смотрите «полные теоремы класса».

1 / λ 2 β σ 24 Например, регрессия гребня возникает как байесовская процедура, когда вы ставите Normal (0, ) до , а модели со случайным эффектом возникают как эмпирическая байесовская процедура в аналогичной структуре . Эти аргументы усложняются тем фактом, что ванильная версия теорем Байесовской допустимости предполагает, что каждый параметр имеет надлежащее предварительное значение. Даже в регрессии гребня это не так, потому что «предыдущий» помещается в дисперсию1/λ2βσ2Погрешность - это постоянная функция (мера Лебега), которая не является правильным (интегрируемым) распределением вероятности. Но, тем не менее, многие такие «частично» байесовские оценки могут быть признаны допустимыми, демонстрируя, что они являются «пределом» последовательности оценок, которые являются собственными байесовскими оценками. Но доказательства здесь становятся довольно замысловатыми и деликатными. Смотрите "Обобщенные оценки Байеса".

Андрей М
источник
1
Большое спасибо, очень интересно (+1). Я могу только пожелать, чтобы ваш ответ был более подробным ... Re сноска (3): вы говорите, что все байесовские оценки допустимы / неукротимы (мне нравится слово), независимо от предыдущего? Но оценка Джеймса-Стейна может быть получена из эмпирического байесовского алгоритма; почему тогда это недопустимо? Кроме того, это будет означать, что, например, в регрессии гребня я могу взять сконцентрированный не около нуля, а вокруг некоторого другого значения: , и оно все равно будет разумная стратегия регуляризации? βN(β0,1/λ2)
говорит амеба: восстановите Монику
2
По той причине, что оценка Джеймса-Стейна недопустима, вы можете найти ответ здесь . Существует также подробное и интересное обсуждение в Lehmann & Casella (1998), Теория оценки точек .
Рандель
@Randel: да, я знаю, что это недопустимо, и видел это рассуждение, мне просто интересно, как оно соответствует утверждению Эндрю (учитывая, что я правильно понял), что все оценки Байеса допустимы, так как Джеймса-Стейна можно понять через Эмпирический Байес ...
говорит амеба Восстановить Монику
2
@ Amoeba: да, любая оценка Байеса, которая является апостериорной при любом надлежащем предварительном оценке, приводит к допустимой оценке. Что касается эмпирического байесовского подхода, то такие процедуры на самом деле не являются истинными байесовскими, поскольку наличие априорной зависимости от данных может привести к патологиям. Иногда они могут показаться допустимыми, иногда нет - обычно вам приходится работать в каждом конкретном случае. Я отредактировал свой ответ, чтобы быть немного более примитивным по этому вопросу, потому что на самом деле я не знаю, допустимы ли классические линейные смешанные модели!
Андрей М
3
Нужно только отметить, что подлинно правильные оценки Байеса редко работают как оценки Джеймса-Стейна, потому что они не являются минимаксными. Например, Билл Строудерман (в 1975 году) показал, что не существует минимаксного собственно байесовской оценки в измерениях меньше 5 для обычной нормальной средней задачи, которая все это задает.
Сиань
2
  • Джеймс-Стейн предполагает, что размер ответа составляет не менее 3. В стандартной регрессии гребня ответ является одномерным. Вы путаете число предикторов с измерением ответа.

  • При этом я вижу сходство между этими ситуациями, но что именно нужно делать, например, должен ли фактор быть фиксированным или случайным, какая величина усадки применяется, если вообще зависит, зависит от конкретного набора данных. Например, чем более ортогональны предикторы, тем меньше смысла выбирать регрессию Риджа вместо стандартной регрессии. Чем больше число параметров, тем больше смысла извлекать априор из самого набора данных через эмпирический байесовский анализ, а затем использовать его для сжатия оценок параметров. Чем выше отношение сигнал / шум, тем меньше преимущества усадки и т. Д.

Джеймс
источник
β
1
Хорошо, тогда в теории JS должен работать лучше, предполагая, что он был распространен на случай, когда оценивается MSE и матрица дисперсии-ковариации бета произвольна. В этом случае JS не просто возьмет точечную оценку беты и умножит ее на коэффициент масштабирования. Как и в случае с Ridge Regression, различные компоненты бета будут сокращаться по-разному.
Джеймс
β
2
@James: можно думать о линейных моделях проецирования образца (который находится в ) на мерное подпространство (столбцы, охватываемые матрицей проектирования). В частности, мы всегда можем тривиально спроецировать его на тождество, которое то же самое, что использование выборочного среднего значения вектора, когда у вас есть только одно наблюдение. р нRnpn
Андрей М
2

Как уже говорили другие, связь между ними заключается в том, как вы включаете предыдущую информацию в измерение.

  1. В случае парадокса Штейна вы знаете, что истинная корреляция между входными переменными должна быть равна нулю (и всем возможным мерам корреляции, поскольку вы хотите подразумевать независимость, а не просто некоррелированность), следовательно, вы можете построить переменную лучше, чем простая выборка означает и подавляет различные меры корреляции. В байесовской структуре вы можете построить априор, который буквально вниз взвешивает события, которые приводят к корреляции между средними значениями выборки, и взвешивает другие.
  2. В случае регрессии гребня вы хотите найти хорошую оценку для значения условного ожидания E (y | x). В принципе, это бесконечномерная проблема, которая плохо определена, поскольку у нас есть только конечное число измерений. Тем не менее, ранее известно, что мы ищем непрерывную функцию, которая моделирует данные. Это все еще плохо определено, так как есть еще бесконечно много способов для моделирования непрерывных функций, но набор несколько меньше. Регрессия гребня - это всего лишь один простой способ отсортировать возможные непрерывные функции, проверить их и остановиться на конечной степени свободы. Интерпретация - это размерная картина VC: во время регрессии гребня вы проверяете, насколько хорошо модель af (x, p1, p2 ...) с заданной степенью свободы описывает неопределенность, присущую данным. Практически он измеряет, насколько хорошо f (x, p1, p2 ... ) и эмпирический P (p1, p2 ...) может восстановить полное распределение P (y | x), а не только E (y | x). Таким образом, модели со слишком большой степенью свободы (которые обычно пересекаются) взвешиваются, поскольку большее значение параметра после определенной степени свободы даст большие корреляции между параметрами и, следовательно, намного шире P (f (x, p1, p2). ..)) раздачи. Другая интерпретация заключается в том, что исходная функция потерь также является измеряемой величиной, и если оценка для данной выборки сопряжена с неопределенностью, поэтому реальная задача состоит не в минимизации функции потерь, а в том, чтобы найти минимум, который значительно ниже, чем другие (практически переход от одной степени свободы к другой является байесовским решением, поэтому один изменяет количество параметров только в том случае, если они дают значительное уменьшение функции потерь). Регрессия гребня может быть интерпретирована как приближение к этим двум изображениям (размер CV, ожидаемые потери). В некоторых случаях вы хотите отдавать предпочтение более высоким степеням свободы, например, в физике элементарных частиц вы изучаете столкновение частиц, когда вы ожидаете, что произведенное число частиц будет распределением Пуассона, поэтому вы восстанавливаете трек частиц по изображению (например, фотография). ) способом, который предпочитает заданное количество дорожек и подавляет модели, которые имеют меньшую или большую интерпретацию номера дорожки по номеру.
  3. В третьем случае также делается попытка внедрить априорную информацию в измерение, а именно, что из предыдущих измерений известно, что рост учеников может быть очень хорошо смоделирован с помощью гауссовских распределений, а не Коши, например.

Короче говоря, ответ заключается в том, что вы можете уменьшить неопределенность измерения, если знаете, чего ожидать, и классифицировать данные с некоторыми предыдущими данными (априорной информацией). Эти предыдущие данные ограничивают вашу функцию моделирования, которую вы используете, чтобы соответствовать измерениям. В простых случаях вы можете записать свою модель в байесовской структуре, но иногда это нецелесообразно, например, интегрируя все возможные функции непрерывного действия, чтобы найти ту, которая имеет байесовское максимальное A апостериорное значение.

Питер Кевесарки
источник
2

Оценка Джеймса Стейна и регрессия Риджа

Рассмотреть возможность

y=Xβ+ϵ

ϵN(0,σ2I)

Решение с наименьшим квадратом имеет вид

β^=S1XyS=XX

β^βσ2S1

β^N(β,σ2S1)β^

Джеймс Стейн

S=Iβ

βN(0,aI)

aa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^

Хребет регрессии

XXβ=(β1,β2,,βp)Sii=1i=1,2,,p

βλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^β^

β^(λ)

β^N(β^,σ2S1)

βN(0,σ2λI)

Тогда мы получим

E(β|β^)=(S+λI)1Sβ^

β^(λ)S=Ia=σ2λ

Чемберлен Фонча
источник