Как интерпретировать результаты, когда гребень и лассо по отдельности работают хорошо, но дают разные коэффициенты

11

Я использую регрессионную модель с Лассо и Риджем (для прогнозирования дискретной переменной результата в диапазоне от 0 до 5). Перед запуском модели я использую SelectKBestметод, scikit-learnчтобы уменьшить набор функций с 250 до 25 . Без первоначального выбора признаков и Лассо, и Ридж уступают более низким показателям точности [что может быть связано с небольшим размером выборки, 600]. Также обратите внимание, что некоторые функции взаимосвязаны.

После запуска модели я вижу, что точность предсказания почти одинакова с Лассо и Риджем. Однако, когда я проверяю первые 10 объектов после упорядочения их по абсолютному значению коэффициентов, я вижу, что перекрытие не более 50%.

То есть, учитывая, что каждый метод назначал разную важность функций, я мог бы иметь совершенно другую интерпретацию на основе выбранной мной модели.

Обычно функции представляют некоторые аспекты поведения пользователя на веб-сайте. Поэтому я хочу объяснить полученные выводы, выделив функции (поведение пользователей) с более сильной предсказательной способностью по сравнению с более слабыми функциями (поведение пользователей). Тем не менее, я не знаю, как двигаться вперед в этой точке. Как мне подходить к интерпретации модели? Например, следует ли объединить оба и выделить перекрывающийся, или я должен пойти с Лассо, поскольку это обеспечивает большую интерпретируемость?

renakre
источник
3
(+1) Регуляризацию можно рассматривать как ухудшение оценок отдельных коэффициентов при одновременном улучшении их коллективных показателей при прогнозировании новых ответов. Что именно вы пытаетесь достичь с помощью вашей интерпретации?
Scortchi - Восстановить Монику
1
@ Scortchi спасибо за ответ. Я добавил этоNormally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
Renakre
3
+1 AFAIK отношение между коэффициентами гребня и лямбда не должно быть монотонным, в то время как в лассо это так. Таким образом, при определенных уровнях усадки абсолютные значения коэффициентов в гребне и лассо могут сильно различаться. Сказав это, я был бы признателен, если бы кто-то смог набросать доказательство этого или кратко объяснить его математически
Лукаш Град,
Убедитесь, что вы сортируете «бета» коэффициенты. См. Stats.stackexchange.com/a/243439/70282 Вы можете получить их, обучаясь стандартизированным переменным или корректируя позже, как описано в ссылке.
Chris
1
@ ŁukaszGrad Коэффициенты LASSO не обязательно должны быть монотонными функциями если предикторы коррелированы; см. рисунок 6.6 ISLR для примера. λ
EdM

Ответы:

7

Хребетная регрессия побуждает все коэффициенты становиться малыми. Лассо побуждает многие / большинство [**] коэффициентов становиться нулевыми, а некоторые - ненулевыми. Они оба снизят точность тренировочного набора, но улучшат прогнозирование в некотором роде:

  • регрессия гребня пытается улучшить обобщение в тестовом наборе, уменьшая перегрузку
  • Лассо уменьшит количество ненулевых коэффициентов, даже если это ухудшит производительность как на тренировочных, так и на тестовых наборах

Вы можете получить различные варианты коэффициентов, если ваши данные сильно коррелированы. Итак, вы можете иметь 5 взаимосвязанных функций:

  • присваивая всем этим признакам небольшие, но ненулевые коэффициенты, регрессия гребня может обеспечить низкие потери на тренировочном наборе, которые могут быть правомерно обобщены для испытательного комплекта
  • Лассо мог бы выбрать только один из них, который хорошо коррелирует с остальными четырьмя. и нет никаких причин, почему он должен выбрать функцию с самым высоким коэффициентом в версии регрессии гребня

[*] для определения значения «выбрать»: присваивает ненулевой коэффициент, который все еще немного махает рукой, поскольку коэффициенты регрессии гребня будут стремиться к тому, чтобы все они были ненулевыми, но, например, некоторые могут быть похожи на 1e-8 и другие могут быть, например, 0,01

[**] нюанс: как указывает Ричард Харди, для некоторых вариантов использования может быть выбрано значение , что приведет к тому, что все коэффициенты LASSO будут ненулевыми, но с некоторой усадкойλ

Хью Перкинс
источник
Хорошие предложения. Хорошей проверкой будет сделать корреляционную матрицу. Неперекрывающиеся переменные могут быть сильно коррелированными.
Chris
3
Хороший ответ! Тем не менее, я не уверен, что было бы справедливо предположить, что ridge повсеместно пытается улучшить производительность теста, не говоря об этом лассо. Например, если истинная модель является разреженной (и в подмножестве наших предикторов), мы можем немедленно ожидать, что у лассо будет лучшая производительность теста, чем у ridge
user795305
Это принцип «ставки на экономию». Например, см. Первый сюжет здесь: faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html
user795305
2
Сравнение переменных вариантов (LASSO) и коэффициентов регрессии среди нескольких загрузочных выборок данных может хорошо иллюстрировать эти проблемы. С коррелированными предикторами те, которые LASSO выбирает из разных бутстрэпов, могут сильно отличаться, в то же время обеспечивая аналогичную прогностическую эффективность. В идеале, весь процесс построения модели, включая первоначальное сокращение набора функций, должен повторяться на нескольких загрузках для документирования качества процесса.
EdM
Выбрав 4 из этих признаков с низкими коэффициентами или даже со всеми из них, опять же с небольшими, но ненулевыми коэффициентами, регрессия гребня может снизить потери на тренировочном наборе - регрессия гребня не выбирает переменные. Кроме того, для низких значений lasso выберет все переменные, но сделает некоторую усадку, как и в случае с ridge. λ
Ричард Харди