Недавно я обнаружил, что в литературе по прикладной эконометрике, когда речь идет о проблемах выбора признаков, нередко выполняется LASSO с последующей регрессией OLS с использованием выбранных переменных.
Мне было интересно, как мы можем квалифицировать обоснованность такой процедуры. Это вызовет проблемы, такие как пропущенные переменные? Какие-либо доказательства того, что это более эффективно, или результаты более интерпретируемы?
Вот некоторые связанные обсуждения:
Выбор переменной с помощью LASSO
Использование деревьев после выбора переменных с помощью Lasso / Random
Если, как указано, такая процедура в целом не верна, то почему до сих пор так много исследователей делают это? Могу ли я сказать, что это всего лишь практическое правило, компромиссное решение из-за некоторых непростых свойств оценки LASSO и привязанности людей к OLS?
Ответы:
Несколько дней назад был похожий вопрос, который имел соответствующую ссылку:
По крайней мере, для меня статья довольно трудная для прочтения, потому что доказательства этого относительно простого довольно сложны. Если вы заинтересованы в оценке модели, как
где - ваш результат, - интересующий эффект лечения, а - вектор потенциальных контролей. Целевым параметром является . Предполагая, что большая часть различий в вашем результате объясняется лечением и редким набором контролей, Belloni et al. (2014) разработали метод двойного робастного отбора, который обеспечивает правильные точечные оценки и допустимые доверительные интервалы. Это предположение о редкости важно, хотя.T i X i αyi Ti Xi α
Если включает несколько важных предикторов но вы не знаете, какие они (отдельные переменные, их многочлены более высокого порядка или взаимодействия с другими переменными), вы можете выполнить трехэтапную процедуру выбора:y яXi yi
Они предоставляют доказательства того, почему это работает и почему вы получаете правильные доверительные интервалы и т. Д. Из этого метода. Они также показывают, что если вы выполняете только выбор LASSO для вышеуказанной регрессии, а затем регрессируете результат лечения и выбранные переменные, вы получаете неверные точечные оценки и ложные доверительные интервалы, как уже сказал Бьёрн.
Цель для этого двоякая: сравнение вашей исходной модели, в которой выбор переменных основывался на интуиции или теории, с моделью двойного робота выбора дает представление о том, насколько хорошей была ваша первая модель. Возможно, ваша первая модель забыла некоторые важные квадраты или термины взаимодействия и поэтому страдает от неправильно заданной функциональной формы или пропущенных переменных. Во-вторых, Belloni et al. (2014) метод может улучшить вывод на ваш целевой параметр, потому что избыточные регрессоры были отброшены в своей процедуре.
источник
Выполнение выбора переменной, а затем повторный анализ, как если бы выбор переменной не происходил и выбранная модель была предназначена с самого начала, обычно приводит к преувеличенным величинам эффекта, недопустимым значениям p и доверительным интервалам с ниже номинального охвата. Возможно, если размер выборки очень большой и есть несколько огромных эффектов и множество нулевых эффектов, LASSO + OLS может не сильно пострадать от этого, но кроме этого я не вижу никакого разумного оправдания, и в этом случае LASSO оценки тоже должны быть хорошими.
источник