Рассмотрим следующие три явления.
Парадокс Штейна: учитывая некоторые данные из многомерного нормального распределения в , среднее значение выборки не очень хорошая оценка истинного среднего. Можно получить оценку с меньшей среднеквадратичной ошибкой, если уменьшить все координаты среднего значения выборки до нуля [или в сторону их среднего значения, или фактически до любого значения, если я правильно понимаю].
NB: обычно парадокс Штейна формулируется через рассмотрение только одной единственной точки данных из ; Пожалуйста, поправьте меня, если это важно, и моя формулировка выше не верна.
Регрессия гребня: учитывая некоторую зависимую переменную и некоторые независимые переменные , стандартная регрессия имеет тенденцию перекрывать данные и приводить к плохой производительности вне выборки. Часто можно уменьшить переоснащение, уменьшив до нуля: .
Случайные эффекты в многоуровневых / смешанных моделях: учитывая некоторую зависимую переменную (например, рост учащегося), которая зависит от некоторых категориальных предикторов (например, идентификатор школы и пол учащегося), часто рекомендуется рассматривать некоторые предикторы как «случайные», то есть предположить, что средний рост ученика в каждой школе зависит от нормального распределения. Это приводит к сокращению оценок среднего роста в расчете на школу до глобального среднего.
У меня есть ощущение, что все это различные аспекты одного и того же феномена «усадки», но я не уверен и, конечно, не обладаю хорошей интуицией в этом. Итак, мой главный вопрос: действительно ли существует глубокое сходство между этими тремя вещами, или это только поверхностное подобие? Какова общая тема здесь? Какова правильная интуиция об этом?
Кроме того, вот некоторые кусочки этой головоломки, которые мне не очень подходят:
В регрессии гребня не сокращается равномерно; Сжатие гребня на самом деле связано с разложением по сингулярному значению , причем направления с малой дисперсией больше сжимаются (см., например, Элементы статистического обучения 3.4.1). Но оценка Джеймса-Стейна просто берет среднее значение выборки и умножает его на один коэффициент масштабирования. Как это сочетается?
Обновление: см. Оценщик Джеймса-Стейна с неравными дисперсиями и, например, здесь относительно дисперсий коэффициентов.
Среднее значение выборки является оптимальным для измерений ниже 3. Означает ли это, что когда в регрессионной модели имеется только один или два предиктора, регрессия гребня всегда будет хуже, чем обычные наименьшие квадраты? На самом деле, если подумать, я не могу представить себе ситуацию в 1D (т.е. простой, не множественной регрессии), где усадка гребня была бы полезной ...
Обновление: Нет. См. При каких условиях регрессия гребня способна обеспечить улучшение по сравнению с обычной регрессией наименьших квадратов?
С другой стороны, среднее значение выборки всегда неоптимально в измерениях выше 3. Означает ли это, что при наличии более 3 предикторов регрессия гребня всегда лучше, чем OLS, даже если все предикторы некоррелированы (ортогональны)? Обычно регрессия гребня обусловлена мультиколлинеарностью и необходимостью «стабилизировать» член .
Обновление: да! Смотрите ту же ветку, что и выше.
Часто возникают острые дискуссии о том, следует ли включать различные факторы в ANOVA в качестве фиксированных или случайных эффектов. Разве мы не должны, по одной и той же логике, всегда рассматривать фактор как случайный, если он имеет более двух уровней (или если существует более двух факторов? Теперь я в замешательстве)?
Обновление: ?
Обновление: я получил несколько отличных ответов, но ни один из них не дает достаточно полной картины, поэтому я позволю вопросу «открыться». Я могу пообещать присудить награду не менее 100 баллов за новый ответ, который превзойдет существующие. Я в основном ищу объединяющую точку зрения, которая могла бы объяснить, как общее явление усадки проявляется в этих различных контекстах, и указать на принципиальные различия между ними.
источник
Ответы:
Связь между оценкой Джеймса – Стейна и регрессией гребня
Пусть быть вектором наблюдения & thetas длины м , у ~ N ( θ , σ 2 I ) , оценщик Джеймс-Штейн, θ J S = ( 1 - ( т - 2 ) σ 2Y θ м y ∼N( θ , σ2я)
Связь между оценщиком Джеймса – Стейна и моделями случайных эффектов
Давайте сначала обсудим модели смешанных / случайных эффектов в генетике. Модель выглядит как Если нет фиксированных эффектов и , модель становится что эквивалентно установке оценки Джеймса-Стейна с некоторыми Байесовская идея.Z = I y = θ + e , θ ∼ N ( 0 , σ 2 θ I ) , e ∼ N ( 0 , σ
Связь между моделями случайных эффектов и регрессией гребня
Если мы сосредоточимся на моделях случайных эффектов, приведенных выше, Оценка эквивалентна решению задачи когда . Доказательство можно найти в главе 3 « Распознавание образов и машинное обучение» .min θ ‖ y - Z θ ‖ 2 + λ ‖ θ ‖ 2 λ = σ 2 / σ 2 θ
Связь между (многоуровневыми) моделями случайных эффектов и генетикой
В приведенной выше модели случайных эффектов размерность равна а размерность равна . Если мы векторизуем как и, соответственно, повторяем , то мы имеем иерархическую / кластерную структуру, кластеров и каждый с единицами. Если мы регрессируем на повторяющемся , то мы можем получить случайное влияние на для каждого кластера, хотя это похоже на обратную регрессию. m × 1 , Z m × p Z ( m p ) × 1 , y p m v e c ( Z ) y Z yY м × 1 , Z м × р Z ( м р ) × 1 , Y п м V e C ( Z ) Y Z Y
Подтверждение : первые три пункта в основном извлечены из этих двух китайских статей, 1 , 2 .
источник
Я собираюсь оставить его в качестве упражнения для сообщества плоти этого ответа, но в целом причина усадка оценок будут * доминирующие * несмещенные оценки в конечных выборках, потому что Байес оценщики не могут доминировать , и многие оценки усадки могут быть получены как байесовские. 2 3 41 2 3 4
Все это подпадает под эгиду теории принятия решений. Исчерпывающая, но довольно недружественная ссылка - «Теория точечной оценки» Лемана и Казеллы. Может быть, другие могут присоединиться с более дружескими ссылками?
& thetas ; л & delta ; ( Х ) = Е ( & thetas ; | Х ) Ом л & thetas ; 0 = { 1 , если & thetas ; = & thetas ; 0 0 & thetas ; ≠ & thetas ; 0 & thetas ; 0 & delta ; ( Х ) = & thetas ; 0 & thetas ; 0 & thetas ; 02 Оценкой является Байес (в любом случае под квадратичной потерей), если это заднее ожидание , учитывая данные, при некотором предшествующем , например, где ожидание взято с апостериорным. Естественно, разные приоры приводят к разным рискам для разных подмножеств . Важным игрушечным примером являются предыдущие
все предыдущие масса о точке . Тогда вы можете показать, что оценка Байеса является постоянной функциейθ π δ( X) = E( θ | X) Ω
1 / λ 2 β σ 24 Например, регрессия гребня возникает как байесовская процедура, когда вы ставите Normal (0, ) до , 1 / λ2 β σ2 Погрешность - это постоянная функция (мера Лебега), которая не является правильным (интегрируемым) распределением вероятности. Но, тем не менее, многие такие «частично» байесовские оценки могут быть признаны допустимыми, демонстрируя, что они являются «пределом» последовательности оценок, которые являются собственными байесовскими оценками. Но доказательства здесь становятся довольно замысловатыми и деликатными. Смотрите "Обобщенные оценки Байеса".
а модели со случайным эффектом возникают как эмпирическая байесовская процедура в аналогичной структуре. Эти аргументы усложняются тем фактом, что ванильная версия теорем Байесовской допустимости предполагает, что каждый параметр имеет надлежащее предварительное значение. Даже в регрессии гребня это не так, потому что «предыдущий» помещается в дисперсиюисточник
Джеймс-Стейн предполагает, что размер ответа составляет не менее 3. В стандартной регрессии гребня ответ является одномерным. Вы путаете число предикторов с измерением ответа.
При этом я вижу сходство между этими ситуациями, но что именно нужно делать, например, должен ли фактор быть фиксированным или случайным, какая величина усадки применяется, если вообще зависит, зависит от конкретного набора данных. Например, чем более ортогональны предикторы, тем меньше смысла выбирать регрессию Риджа вместо стандартной регрессии. Чем больше число параметров, тем больше смысла извлекать априор из самого набора данных через эмпирический байесовский анализ, а затем использовать его для сжатия оценок параметров. Чем выше отношение сигнал / шум, тем меньше преимущества усадки и т. Д.
источник
Как уже говорили другие, связь между ними заключается в том, как вы включаете предыдущую информацию в измерение.
Короче говоря, ответ заключается в том, что вы можете уменьшить неопределенность измерения, если знаете, чего ожидать, и классифицировать данные с некоторыми предыдущими данными (априорной информацией). Эти предыдущие данные ограничивают вашу функцию моделирования, которую вы используете, чтобы соответствовать измерениям. В простых случаях вы можете записать свою модель в байесовской структуре, но иногда это нецелесообразно, например, интегрируя все возможные функции непрерывного действия, чтобы найти ту, которая имеет байесовское максимальное A апостериорное значение.
источник
Оценка Джеймса Стейна и регрессия Риджа
Рассмотреть возможность
Решение с наименьшим квадратом имеет вид
Джеймс Стейн
Хребет регрессии
Тогда мы получим
источник