Я знаю о преимуществах регуляризации при построении прогностических моделей (смещение против дисперсии, предотвращение переоснащения). Но мне интересно, будет ли хорошей идеей также выполнять регуляризацию (лассо, гребень, упругая сеть), когда основной целью регрессионной модели является вывод на коэффициенты (видя, какие предикторы являются статистически значимыми). Я хотел бы услышать мысли людей, а также ссылки на любые академические журналы или неакадемические статьи, посвященные этому.
18
Ответы:
Термин «регуляризация» охватывает очень широкий спектр методов. Для целей этого ответа я собираюсь сузить понятие «наказанная оптимизация», то есть добавить штраф или L 2 к вашей задаче оптимизации.L1 L2
Если это так, то ответ является окончательным "Да! Ну вроде".
Причина этого заключается в том, что добавление штрафа или L 2 к функции правдоподобия приводит к точно такой же математической функции, что и добавление либо Лапласа, либо Гаусса a до вероятности получения апостериорного распределения (шаг элеватора: предыдущее распределение описывает неопределенность параметров перед просмотром данных, апостериорное распределение описывает неопределенность параметров после просмотра данных), что приводит к байесовской статистике 101. Байесовская статистика очень популярна и выполняется все время с целью определения предполагаемых эффектов.L1 L2
Это было "Да!" часть. «Well kinda» - это то, что оптимизация вашего апостериорного распределения выполнена и называется оценкой «Maximum A Posterior» (MAP). Но большинство байесовских не используют оценку MAP, они выбирают из апостериорного распределения, используя алгоритмы MCMC! Это имеет несколько преимуществ, одно из которых состоит в том, что он имеет тенденцию к меньшему смещению вниз в компонентах дисперсии.
Ради краткости я постарался не вдаваться в подробности о байесовской статистике, но если это вас интересует, это то место, где стоит начать поиск.
источник
Существует большое различие между выполнением оценки с использованием штрафов типа гребня и штрафов типа лассо. Оценщики типа гребня имеют тенденцию сжимать все коэффициенты регрессии к нулю и смещены, но имеют легко вывести асимптотическое распределение, потому что они не сокращают любую переменную до точно нуля. Уклон в оценках гребня может быть проблематичным в последующем выполнении проверки гипотезы, но я не эксперт в этом. С другой стороны, штрафы типа Лассо / эластичной сети уменьшают многие коэффициенты регрессии до нуля и поэтому могут рассматриваться как методы выбора модели. Проблема выполнения вывода на моделях, которые были выбраны на основе данных, обычно называется проблемой выборочного вывода или вывода после выбора. В этой области произошло много событий за последние годы.
Аналогично, лассо (или эластичная сетка) ограничивает пространство выборки таким образом, чтобы гарантировать, что выбранная модель была выбрана. Это усечение является более сложным, но может быть описано аналитически.
Основываясь на этом понимании, можно сделать вывод на основе усеченного распределения данных, чтобы получить достоверную статистику теста. Доверительные интервалы и статистику испытаний см. В работе Lee et al .: http://projecteuclid.org/euclid.aos/1460381681
Их методы реализованы в R-пакете селективных ссылок .
Оптимальная оценка (и тестирование) после выбора модели обсуждается в (для лассо): https://arxiv.org/abs/1705.09417
и их (гораздо менее полный) программный пакет доступен по адресу : https://github.com/ammeir2/selectiveMLE
источник
Я бы особенно рекомендовал LASSO, если вы пытаетесь использовать регрессию для вывода, основанного на «какие предикторы статистически значимы» - но не по той причине, на которую вы могли бы рассчитывать.
На практике предикторы в модели имеют тенденцию быть коррелированными. Даже если нет существенной мультиколлинеарности, регрессионный выбор «значимых» предикторов среди набора коррелированных предикторов может существенно различаться от выборки к выборке.
Так что да, продолжайте и сделайте LASSO для вашей регрессии. Затем повторите весь процесс построения модели (включая перекрестную проверку, чтобы выбрать штраф LASSO) для нескольких выборок начальной загрузки (несколько сотен или около того) из исходных данных. Посмотрите, насколько переменной может быть набор «значимых» предикторов, выбранных таким образом.
Если ваши предикторы не являются сильно ортогональными друг к другу, этот процесс должен заставить вас дважды подумать о интерпретации p-значений в регрессии, с точки зрения того, какие отдельные предикторы «значительно» важны.
источник