Почему выбор лучшего подмножества не является предпочтительным по сравнению с лассо?

13

Я читаю о выборе лучшего подмножества в книге «Элементы статистического обучения». Если у меня есть 3 предиктора x1,x2,x3 , я создаю подмножеств:23=8

  1. Подмножество без предикторов
  2. подмножество с предикторомx1
  3. подмножество с предикторомx2
  4. подмножество с предикторомx3
  5. подмножество с предикторамиx1,x2
  6. подмножество с предикторамиx1,x3
  7. подмножество с предикторамиx2,x3
  8. подмножество с предикторамиx1,x2,x3

Затем я проверяю все эти модели на тестовых данных, чтобы выбрать лучшую.

Теперь мой вопрос: почему выбор лучшего подмножества не предпочтителен по сравнению, например, с лассо?

Если я сравниваю функции определения порога наилучшего подмножества и лассо, я вижу, что лучшее подмножество устанавливает некоторые коэффициенты на ноль, как лассо. Но другой коэффициент (ненулевой) все равно будет иметь значения ols, они будут непредвзятыми. Принимая во внимание, что в случае лассо некоторые коэффициенты будут равны нулю, а другие (ненулевые) будут иметь некоторое смещение. На рисунке ниже это видно лучше: введите описание изображения здесь

На рисунке часть красной линии в лучшем случае подмножества лежит на серой. Другая часть лежит на оси X, где некоторые из коэффициентов равны нулю. Серая линия определяет непредвзятые решения. В лассо некоторое смещение вносит . Из этой цифры я вижу, что лучшее подмножество лучше, чем лассо! Каковы недостатки использования лучшего подмножества?λ

Виль
источник
1
... и как выглядят кривые, когда случайность в данных заставляет вас выбрать одно из множества неправильных подмножеств, а соответствующие оценки коэффициентов далеки от нуля относительно их стандартных ошибок?
jbowman
2
@jbowman Я не очень хорошо понимаю, почему случайность в данных заставляет меня выбрать неправильный? Если бы я использовал перекрестную проверку для выбора лучшего подмножества, у меня были бы меньшие шансы выбрать неправильное подмножество.
Вилле
1
Вы, кажется, приравниваете «меньше предвзятости» к «лучше». Почему вы так цените непредвзятость?
Мэтью Друри

Ответы:

16

При выборе подмножества ненулевые параметры будут беспристрастными, только если вы выбрали надмножество правильной модели, т.е. если вы удалили только предикторы, истинные значения коэффициентов которых равны нулю. Если в результате процедуры выбора вы исключили предиктор с истинным ненулевым коэффициентом, все оценки коэффициента будут смещены. Это опровергает ваш аргумент, если вы согласитесь, что выбор, как правило, не идеален.

Таким образом, чтобы «быть уверенным» в объективной оценке модели, вы должны ошибиться, включив больше или даже все потенциально релевантные предикторы. То есть не стоит выбирать вообще.

Почему это плохая идея? Из-за компромисса смещения дисперсии. Да, ваша большая модель будет беспристрастной, но она будет иметь большую дисперсию, и дисперсия будет доминировать в ошибке прогнозирования (или другой ошибки).

Следовательно, лучше согласиться с тем, что оценки параметров будут смещенными, но будут иметь меньшую дисперсию (регуляризацию), чем надеяться, что при выборе нашего подмножества будут удалены только параметры с истинным нулем, поэтому мы имеем несмещенную модель с большей дисперсией.

Поскольку вы пишете, что оцениваете оба подхода с использованием перекрестной проверки, это смягчает некоторые из проблем, перечисленных выше. Остается одна проблема для лучшего подмножества: он ограничивает одни параметры до нуля и позволяет другим свободно перемещаться. Таким образом, в оценке есть разрыв, которого нет, если мы настроим лассо за точку λ 0, где предиктор p включен или исключен. Предположим, что перекрестная проверка выдает «оптимальный» λ , близкий к λ 0 , поэтому мы по существу не уверены, следует ли включать p или нет. В этом случае, я бы сказал , что это имеет смысл ограничить оценка параметра р рλλ0pλλ0β^pс помощью лассо к небольшому (абсолютному) значению, а не либо полностью исключить , или пусть он свободно плавать, β р = β МНК р , как это делает наилучшее подмножество.β^p=0β^p=β^pOLS

Это может быть полезно: почему работает усадка?

Стефан Коласса
источник
Хм. Я не думаю, что это отвечает, почему лучшее подмножество хуже, чем лассо (что является основным вопросом здесь).
говорит амеба: восстанови Монику
@amoeba: вы хотели бы уточнить?
Стефан Коласса
Ну, я понял вопрос как вопрос, почему лассо предпочтительнее лучшего подмножества. Представьте, что мы поместили оба в цикл перекрестной проверки, а затем либо настроили параметр лассо, либо нашли лучшее подмножество. Лассо обычно рекомендуется. Я понял вопрос как спрашивающий почему? (см., например, название вопроса), и я не уверен, что ваш ответ на самом деле отвечает на это. Или я неправильно понял ваш ответ?
говорит амеба: восстанови Монику
1
Одна из оставшихся проблем для лучшего подмножества состоит в том, что он ограничивает некоторые параметры, чтобы они были точно равны нулю, и позволяет другим свободно плавать, поэтому в оценке есть разрыв, которого не будет, если мы настроим лассо за точку λ 0, где a Предиктор р включен или исключен. Я бы утверждать , что , если мы, по существу , не уверены , является ли р должен быть включен или нет, потому что А , А , 0 , то это имеет смысл , чтобы ограничить оценка параметра р р с помощью лассо, а не пусть он свободно плавать. λλ0ppλλ0β^p
Стефан Коласса
1
Согласитесь, что этот ответ на самом деле не отвечает на вопрос - я добавил свой взгляд на это ниже ...
Том Венселерс
11

В принципе, если можно найти лучшее подмножество, оно действительно лучше, чем LASSO, с точки зрения (1) выбора переменных, которые действительно способствуют подгонке, (2) не выбора переменных, которые не способствуют подгонке, (3) точность прогнозирования и (4) получение по существу несмещенных оценок для выбранных переменных. Одна из недавних работ, в которой говорилось о превосходном качестве лучшего подмножества по сравнению с LASSO, - это статья Берцимаса и др. (2016) «Выбор лучшего подмножества с помощью современной оптимизационной линзы» . Другой более старый пример, приводящий конкретный пример (о деконволюции шиповых поездов), где лучшее подмножество было лучше, чем у LASSO или хребта, - это de Rooi & Eilers (2011).

L0L1L0Lqнормализованная нормализованная регрессия с q, близким к 0, в принципе была бы ближе к выбору лучшего подмножества, чем LASSO, но это больше не проблема выпуклой оптимизации, и поэтому ее довольно сложно подобрать ).

Чтобы уменьшить смещение LASSO, можно использовать производные многошаговые подходы, такие как адаптивный LASSO (где коэффициенты дифференциально штрафуются на основе предварительной оценки по методу наименьших квадратов или подгонки гребня) или ослабленное LASSO (простое решение состоит в том, чтобы сделать наименьших квадратов соответствуют переменным, выбранным LASSO). По сравнению с лучшим подмножеством, LASSO имеет тенденцию выбирать немного слишком много переменных, хотя. Выбор лучшего подмножества лучше, но сложнее для подбора.

L0обеспечивает обширное сравнение лучшего подмножества, LASSO и некоторых вариантов LASSO, таких как расслабленный LASSO, и они утверждают, что расслабленный LASSO был тем, который произвел самую высокую точность прогнозирования модели в самом широком диапазоне обстоятельств, то есть они пришли к другому выводу, чем Bertsimas. Но вывод о том, какой из них является наилучшим, во многом зависит от того, что вы считаете лучшим (например, наивысшая точность прогнозирования или наилучший выбор релевантных переменных, не включая не относящихся к делу; регрессия гребня, например, обычно выбирает слишком много переменных, но точность прогнозирования для случаев с высококоллинеарные переменные, тем не менее, могут быть действительно хорошими).

Для очень маленькой проблемы с 3 переменными, как вы описали, ясно, что лучший выбор подмножества является предпочтительным вариантом.

Том Венселерс
источник
1
Что значит «лучше» во фразе «лучше, чем лассо»?
Мэтью Друри
1
kλkКК
Немного отредактировал мой ответ, чтобы дать больше подробностей ...
Том Венселерс
Я не думаю, что какие-либо ответы касаются проблемы стабильности. Как и поэтапная регрессия всех возможных подмножеств, lassoкак известно, нестабильна. Другими словами, если вы загрузите весь процесс, вы найдете слишком много произвола в списке выбранных функций.
Фрэнк Харрелл
Да, переменные, выбранные с помощью LASSO, могут быть нестабильными, и это тем более справедливо для случая наилучшей регрессии подмножества - упругая регрессия сети немного лучше в этом отношении - которая обычно включает слишком много переменных, но выбирается более стабильный способ, и может дать лучшую точность прогноза при высокой коллинеарности. Но многое зависит от того, что является наиболее важным критерием для вашего приложения - точность прогноза, частота ложных срабатываний с учетом не относящихся к делу переменных или доля ложных отрицательных результатов без включения крайне релевантных переменных ...
Том Венселерс