Я использую регрессионную модель с Лассо и Риджем (для прогнозирования дискретной переменной результата в диапазоне от 0 до 5). Перед запуском модели я использую SelectKBest
метод, scikit-learn
чтобы уменьшить набор функций с 250 до 25 . Без первоначального выбора признаков и Лассо, и Ридж уступают более низким показателям точности [что может быть связано с небольшим размером выборки, 600]. Также обратите внимание, что некоторые функции взаимосвязаны.
После запуска модели я вижу, что точность предсказания почти одинакова с Лассо и Риджем. Однако, когда я проверяю первые 10 объектов после упорядочения их по абсолютному значению коэффициентов, я вижу, что перекрытие не более 50%.
То есть, учитывая, что каждый метод назначал разную важность функций, я мог бы иметь совершенно другую интерпретацию на основе выбранной мной модели.
Обычно функции представляют некоторые аспекты поведения пользователя на веб-сайте. Поэтому я хочу объяснить полученные выводы, выделив функции (поведение пользователей) с более сильной предсказательной способностью по сравнению с более слабыми функциями (поведение пользователей). Тем не менее, я не знаю, как двигаться вперед в этой точке. Как мне подходить к интерпретации модели? Например, следует ли объединить оба и выделить перекрывающийся, или я должен пойти с Лассо, поскольку это обеспечивает большую интерпретируемость?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
Ответы:
Хребетная регрессия побуждает все коэффициенты становиться малыми. Лассо побуждает многие / большинство [**] коэффициентов становиться нулевыми, а некоторые - ненулевыми. Они оба снизят точность тренировочного набора, но улучшат прогнозирование в некотором роде:
Вы можете получить различные варианты коэффициентов, если ваши данные сильно коррелированы. Итак, вы можете иметь 5 взаимосвязанных функций:
[*] для определения значения «выбрать»: присваивает ненулевой коэффициент, который все еще немного махает рукой, поскольку коэффициенты регрессии гребня будут стремиться к тому, чтобы все они были ненулевыми, но, например, некоторые могут быть похожи на 1e-8 и другие могут быть, например, 0,01
[**] нюанс: как указывает Ричард Харди, для некоторых вариантов использования может быть выбрано значение , что приведет к тому, что все коэффициенты LASSO будут ненулевыми, но с некоторой усадкойλ
источник