Как имеет смысл делать OLS после выбора переменной LASSO?

20

Недавно я обнаружил, что в литературе по прикладной эконометрике, когда речь идет о проблемах выбора признаков, нередко выполняется LASSO с последующей регрессией OLS с использованием выбранных переменных.

Мне было интересно, как мы можем квалифицировать обоснованность такой процедуры. Это вызовет проблемы, такие как пропущенные переменные? Какие-либо доказательства того, что это более эффективно, или результаты более интерпретируемы?

Вот некоторые связанные обсуждения:

Выбор переменной с помощью LASSO

Использование деревьев после выбора переменных с помощью Lasso / Random

Если, как указано, такая процедура в целом не верна, то почему до сих пор так много исследователей делают это? Могу ли я сказать, что это всего лишь практическое правило, компромиссное решение из-за некоторых непростых свойств оценки LASSO и привязанности людей к OLS?

ZLIU
источник
Не могли бы вы объяснить, что значит делать «регрессию OLS» после выполнения LASSO? Что именно этот шаг OLS пытается оценить, что LASSO не оценил?
whuber
2
Есть несколько недавних рабочих документов по этому вопросу. Многие, кажется, требуют допущения, что набор допустимых переменных редок. Если это предположение не выполняется, то да, пропущенные переменные смещения будут присутствовать. А людям нравится ols, потому что они хотят интерпретировать коэф как непредвзятые из-за предельных эффектов. Эконометрика довольно застряла в этой парадигме.
generic_user
4
В этой недавней книге LASSO (бесплатно онлайн) раздел 11.4 посвящен решению этой проблемы. Я не читал это подробно, но введение заканчивается словами: «Учитывая [оценку LASSO] которая правильно восстанавливает поддержку , мы можем очень хорошо оценить ... просто выполняя обычную регрессию наименьших квадратов, ограниченную этим подмножеством ". β*β*β^ββ
GeoMatt22

Ответы:

12

Несколько дней назад был похожий вопрос, который имел соответствующую ссылку:

  • Беллони А., Черножуков В. и Хансен С. (2014) «Вывод о влиянии лечения после выбора среди многомерных контролей», Обзор экономических исследований, 81 (2), с. 608-50 ( ссылка )

По крайней мере, для меня статья довольно трудная для прочтения, потому что доказательства этого относительно простого довольно сложны. Если вы заинтересованы в оценке модели, как

yi=αTi+Xiβ+ϵi

где - ваш результат, - интересующий эффект лечения, а - вектор потенциальных контролей. Целевым параметром является . Предполагая, что большая часть различий в вашем результате объясняется лечением и редким набором контролей, Belloni et al. (2014) разработали метод двойного робастного отбора, который обеспечивает правильные точечные оценки и допустимые доверительные интервалы. Это предположение о редкости важно, хотя.T i X i αyiTiXiα

Если включает несколько важных предикторов но вы не знаете, какие они (отдельные переменные, их многочлены более высокого порядка или взаимодействия с другими переменными), вы можете выполнить трехэтапную процедуру выбора:y яXiyi

  1. регрессировать в , их квадратах и ​​взаимодействиях и выбирать важных предикторов с помощью LASSOX iyiXi
  2. регрессировать в , их квадратах и ​​взаимодействиях и выбирать важных предикторов, используя LASSOX iTiXi
  3. регрессировать в и все переменные, которые были выбраны в любом из первых двух шаговT iyiTi

Они предоставляют доказательства того, почему это работает и почему вы получаете правильные доверительные интервалы и т. Д. Из этого метода. Они также показывают, что если вы выполняете только выбор LASSO для вышеуказанной регрессии, а затем регрессируете результат лечения и выбранные переменные, вы получаете неверные точечные оценки и ложные доверительные интервалы, как уже сказал Бьёрн.

Цель для этого двоякая: сравнение вашей исходной модели, в которой выбор переменных основывался на интуиции или теории, с моделью двойного робота выбора дает представление о том, насколько хорошей была ваша первая модель. Возможно, ваша первая модель забыла некоторые важные квадраты или термины взаимодействия и поэтому страдает от неправильно заданной функциональной формы или пропущенных переменных. Во-вторых, Belloni et al. (2014) метод может улучшить вывод на ваш целевой параметр, потому что избыточные регрессоры были отброшены в своей процедуре.

Энди
источник
«Правильные» точечные оценки?
Ричард Харди
3

Выполнение выбора переменной, а затем повторный анализ, как если бы выбор переменной не происходил и выбранная модель была предназначена с самого начала, обычно приводит к преувеличенным величинам эффекта, недопустимым значениям p и доверительным интервалам с ниже номинального охвата. Возможно, если размер выборки очень большой и есть несколько огромных эффектов и множество нулевых эффектов, LASSO + OLS может не сильно пострадать от этого, но кроме этого я не вижу никакого разумного оправдания, и в этом случае LASSO оценки тоже должны быть хорошими.

Бьерн
источник
1
Но почему вторая модель начинается с нуля, как будто выбор переменной не произошел? Разве LASSO не выбирает объяснительную переменную с лучшей предсказательной силой? Кстати, я подумал снова разбить матричную переменную LASSO на glm. Теперь я понял, что LASSO сама по себе является регрессом.
SIslam