Я провожу анализ, основной задачей которого является понимание данных. Набор данных достаточно велик для перекрестной проверки (10 КБ), и предикторы включают как непрерывные, так и фиктивные переменные, а результат - непрерывный. Главная цель состояла в том, чтобы увидеть, имеет ли смысл исключать некоторые предикторы, чтобы облегчить интерпретацию модели.
Вопросов:
Мой вопрос «какие переменные объясняют результат и являются« достаточно сильной »частью этого объяснения». Но чтобы выбрать лямбда-параметр для лассо, вы используете перекрестную проверку, т.е. предиктивную достоверность в качестве критерия. Делая вывод, является ли предсказательная достоверность достаточно хорошим показателем для общего вопроса, который я задаю?
Скажем, LASSO сохранил только 3 из 8 предикторов. И теперь я спрашиваю себя: «Как они влияют на результат». Например, я нашел гендерную разницу. После усадки лассо коэффициент предполагает, что женщины набирают на 1 балл выше, чем мужчины. Но без усадки (т. Е. Фактического набора данных) они набирают 2,5 балла выше.
- Какой из них я бы выбрал своим «настоящим» гендерным эффектом? Если исходить только из прогнозирующей достоверности, это будет сокращенный коэффициент.
- Или в контексте скажем, что я пишу отчет для людей, плохо разбирающихся в статистике. Какой коэффициент я бы им сообщил?
источник
Ответы:
Если ваша цель - точно оценить параметры в вашей модели, то насколько вы близки к истинной модели, как вы должны выбрать свою модель. Предсказательная валидность с помощью перекрестной проверки является одним из способов сделать это и является предпочтительным способом для выбора в регрессии LASSO. λ∗ λ
Теперь, чтобы ответить на вопрос о том, какая оценка параметра является «реальной оценкой», нужно посмотреть, какой параметр «наиболее близок» к действительному значению параметра. Означает ли «ближайший» оценки параметров, которые минимизируют смещение? Если это так, то метод наименьших квадратов несмещен в линейной регрессии. Ближайшая средняя оценка параметра, которая минимизирует среднеквадратичную ошибку (MSE)? Затем можно показать, что существует спецификация регрессии гребня, которая даст вам оценки, которые минимизируют MSE (подобно LASSO, оценка регрессии гребня сжимает оценки до нуля, но, в отличие от LASSO, оценки параметров не достигают нуля). По аналогии,λ ). Как статистик, вы должны определить, что является «наилучшей» оценкой, и сообщить о ней (желательно с некоторым указанием достоверности оценки) тем, кто плохо разбирается в статистике. То, что является «лучшим», может быть или не быть предвзятой оценкой.
glmnet
источник