Курортный сезон дал мне возможность свернуться калачиком рядом с огнем вместе с «Элементами статистического обучения» . Исходя из (часто) точки зрения эконометрики, у меня возникают проблемы с пониманием использования методов усадки, таких как регрессия гребня, лассо и регрессия с наименьшим углом (LAR). Как правило, меня интересуют оценки параметров самих себя и достижение объективности или хотя бы согласованности. Методы усадки не делают этого.
Мне кажется, что эти методы используются, когда статистика обеспокоена тем, что функция регрессии становится слишком чувствительной к предикторам, что она считает предикторы более важными (измеряемыми по величине коэффициентов), чем они есть на самом деле. Другими словами, переоснащение.
Но OLS обычно предоставляет объективные и непротиворечивые оценки. (Сноска) Я всегда рассматривал проблему переоценки не предоставления слишком больших оценок, а скорее доверительных интервалов, которые слишком малы, потому что процесс выбора не принимается во внимание ( ESL упоминает этот последний момент).
Несмещенные / непротиворечивые оценки коэффициентов приводят к непредвзятым / непротиворечивым прогнозам результатов. Методы сжатия подталкивают прогнозы ближе к среднему результату, чем OLS, по-видимому, оставляя информацию на столе.
Повторюсь, я не вижу, какую проблему пытаются решить методы усадки. Я что-то пропустил?
Сноска: Нам нужно условие полного ранга столбца для идентификации коэффициентов. Предположение об экзогенности / нулевом условном среднем для ошибок и предположение о линейном условном ожидании определяют интерпретацию, которую мы можем дать коэффициентам, но мы получаем непредвзятую или непротиворечивую оценку чего-либо, даже если эти предположения не верны.
Ответы:
Я подозреваю, что вы хотите получить более глубокий ответ, и мне придется позволить кому-то другому предоставить это, но я могу дать вам некоторые мысли по поводу регрессии гребня со свободной, концептуальной точки зрения.
Регрессия OLS дает оценки параметров, которые являются несмещенными (т. Е. Если такие выборки собираются и параметры оцениваются неопределенно, распределение выборки оценок параметров будет сосредоточено на истинном значении). Кроме того, распределение выборки будет иметь самую низкую дисперсию из всех возможных несмещенных оценок (это означает, что в среднем оценка параметра OLS будет ближе к истинному значению, чем оценка из какой-либо другой несмещенной процедуры оценки). Это старые новости (и я прошу прощения, я знаю, что вы это хорошо знаете), однако тот факт, что дисперсия ниже , не означает, что она ужасно низкая, При некоторых обстоятельствах дисперсия распределения выборки может быть настолько большой, что делает оценку OLS по существу бесполезной. (Одна из ситуаций, когда это может произойти, - это высокая степень мультиколлинеарности.)
Что делать в такой ситуации? Что ж, можно найти другую оценку, которая имеет меньшую дисперсию (хотя, очевидно, она должна быть предвзятой, учитывая то, что было оговорено выше). То есть мы меняем объективность на меньшую дисперсию. Например, мы получаем оценки параметров, которые, вероятно, будут существенно ближе к истинному значению, хотя, вероятно, немного ниже истинного значения. Стоит ли этот компромисс - это решение, которое аналитик должен принять, когда столкнется с этой ситуацией. Во всяком случае, регрессия гребня является именно такой техникой. Следующая (полностью сфабрикованная) фигура предназначена для иллюстрации этих идей.
Это обеспечивает краткое, простое, концептуальное введение в регрессию гребня. Я меньше знаю о лассо и LAR, но я верю, что те же идеи могут быть применены. Больше информации о регрессии лассо и наименьшего угла можно найти здесь , особенно полезна ссылка «простое объяснение ...». Это дает гораздо больше информации о методах усадки.
Я надеюсь, что это имеет какое-то значение.
источник
Ошибка оценки представляет собой комбинацию (квадрата) смещения и дисперсии компонентов . Однако на практике мы хотим подогнать модель к определенной конечной выборке данных и минимизировать суммарную ошибку оценщика, оцененного на конкретной выборке данных, которую мы фактически имеем , а не нулевую ошибку в среднем по некоторой совокупности выборок (что у нас нет). Таким образом, мы хотим уменьшить как смещение, так и дисперсию, чтобы минимизировать ошибку, что часто означает пожертвование беспристрастностью для большего уменьшения компонента дисперсии. Это особенно верно при работе с небольшими наборами данных, где дисперсия, вероятно, будет высокой.
Я думаю, что разница в фокусе зависит от того, заинтересованы ли вы в свойствах процедуры или в получении наилучших результатов по конкретному образцу. Частые пользователи обычно находят первое, с чем легче иметь дело в этих рамках; Байесовцы часто больше внимания уделяют последним.
источник
Я думаю, что есть несколько ответов, которые могут быть применимы:
Я не уверен, что первый пункт относительно регрессии гребня - это действительно особенность; Я думаю, что я предпочел бы изменить свою модель, чтобы справиться с неидентификацией. Даже без изменения моделирования OLS предоставляет уникальные (и объективные / непротиворечивые) прогнозы результата в этом случае.
Я мог видеть, как второй пункт может быть полезным, но прямой выбор может также работать в случае, если число параметров превышает количество наблюдений, в то же время получая объективные / непротиворечивые оценки.
В последнем пункте, выбор вперед / назад, как примеры, легко автоматизировать.
Так что я до сих пор не вижу реальных преимуществ.
источник
Вот основной прикладной пример из биостатистики
Давайте предположим, что я изучаю возможные связи между наличием рака яичников и набором генов.
Моя зависимая переменная является двоичной (кодируется как ноль или 1). Мои независимые переменные кодируют данные из протеомной базы данных.
Как обычно во многих исследованиях генетики, мои данные намного шире, чем высокие. У меня 216 разных наблюдений, но около 4000 возможных предикторов.
Линейная регрессия прямо (система ужасно переопределена).
методы выбора функций действительно неосуществимы. С более чем 4000 различных независимых переменных все возможные методы подмножеств полностью исключены, и даже последовательный выбор признаков сомнителен.
Наилучшим вариантом, вероятно, является использование логистической регрессии с эластичной сеткой.
Я хочу сделать выбор объектов (определить, какие независимые переменные важны), поэтому регрессия гребня действительно не подходит.
Вполне возможно, что существует более 216 независимых переменных, которые оказывают значительное влияние, поэтому я, вероятно, не должен использовать лассо (Лассо не может определить больше предикторов, чем у вас есть наблюдения) ...
Введите упругую сеть ...
источник
Другая проблема, которую могут решить методы линейной регрессионной усадки, заключается в получении оценки низкого среднего (возможно несмещенного) среднего эффекта лечения (ATE) в многомерных исследованиях типа «случай-контроль» на данных наблюдений.
В частности, в случаях, когда 1) имеется большое количество переменных (что затрудняет выбор переменных для точного сопоставления), 2) сопоставление показателей предрасположенности не устраняет дисбаланс в образцах для обработки и контроля и 3) присутствует мультиколлинеарность, то есть Есть несколько методов, таких как адаптивное лассо (Zou, 2006), которые получают асимптотически несмещенные оценки. Было несколько работ, в которых обсуждается использование регрессии Лассо для причинного вывода и генерация доверительных интервалов для оценок коэффициентов (см. Следующий пост: Вывод после использования Лассо для выбора переменных ).
источник