Ниже приведен график glmnet с альфа-значением по умолчанию (1, следовательно, лассо) с использованием mtcars
набора данных в R с использованием mpg
в качестве DV и других в качестве переменных-предикторов.
glmnet(as.matrix(mtcars[-1]), mtcars[,1])
Что мы можем сделать вывод из этого графика относительно различных переменных, особенно am
, cyl
и wt
(красные, черные и светло - голубые линий)? Как бы мы сформулировали результаты в отчете, который будет опубликован?
Я думал о следующем:
wt
является наиболее важным предсказателемmpg
. Это негативно влияет наmpg
.cyl
является слабым негативным предикторомmpg
.am
может быть положительным предикторомmpg
.Другие переменные не являются надежными предикторами
mpg
.
Спасибо за ваши мысли по этому поводу.
(Примечание: cyl
черная линия, которая не достигает 0 до очень близко к ней.)
Изменить: Ниже приведен график (mod, xvar = 'lambda'), который показывает ось X в порядке, обратном приведенному выше графику:
(PS: Если вы находите этот вопрос интересным / важным, пожалуйста, проголосуйте за него;)
-1
вglmnet(as.matrix(mtcars[-1]), mtcars[,1])
.my_data_frame[1]
возвращает фрейм данных с одного столбца, в то время как ,my_data_frame[[1]]
иmy_data_frame[, 1]
как обратный вектор , который не «содержал» от кадра данных. Матрицы, однако, на самом деле просто плоские векторы со специальным атрибутом , который позволяет R для доступа к ним , как сетки, такmy_matrix[1]
,my_matrix[1, 1]
иmy_matrix[[1]]
все будет возвращать первый элемент изmy_matrix
.my_matrix[, 1
] возвращает первый столбец.Ответы:
С этой целью я создал некоторые коррелированные и некоррелированные данные для демонстрации:
Данные
x_uncorr
имеют некоррелированные столбцыв то время как
x_corr
имеет предварительно установленную корреляцию между столбцамиТеперь давайте посмотрим на графики лассо для обоих этих случаев. Сначала некоррелированные данные
Пара особенностей выделяются
Все это общие факты, которые относятся к регрессии лассо с некоррелированными данными, и все они могут быть либо доказаны вручную (хорошее упражнение!), Либо найдены в литературе.
Теперь давайте сделаем коррелированные данные
Вы можете прочитать некоторые вещи из этого сюжета, сравнив его с некоррелированным случаем
Итак, теперь давайте посмотрим на ваш сюжет из набора данных автомобилей и прочитаем некоторые интересные вещи (я воспроизвел ваш сюжет здесь, чтобы это обсуждение было легче читать):
Предупреждение : я написал следующий анализ, основанный на предположении, что кривые показывают стандартизированные коэффициенты, в этом примере они не показывают . Нестандартизированные коэффициенты не являются безразмерными и несопоставимыми, поэтому из них нельзя сделать никаких выводов с точки зрения прогнозирующей важности. Чтобы следующий анализ был действительным, сделайте вид, что график имеет стандартизированные коэффициенты, и, пожалуйста, проведите собственный анализ по стандартным путям коэффициентов.
wt
предиктор кажется очень важным. Сначала он входит в модель и имеет медленный и устойчивый спуск к окончательному значению. У него есть несколько корреляций, которые делают его слегка ухабистым,am
в частности, кажется, что он имеет радикальный эффект, когда вступает.am
тоже важно. Это приходит позже и соотносится с темwt
, как оно сильно влияет на уклонwt
. Это также связанно сcarb
иqsec
, так как мы не видим предсказуемое размягчения склона , когда те войти. После того, как эти четыре переменных вошел , хотя мы действительно видим хороший некоррелированный шаблон, так что , кажется, коррелированны со всеми предсказателями в конце.cyl
иwt
параметры.cyl
довольно навязчиво. Входит вторым, поэтому важно для маленьких моделей. После других переменных, и особенноam
входа, это уже не так важно, и его тренд меняется на противоположный, в конце концов практически исчезая. Кажется, что эффектcyl
может быть полностью уловлен переменными, которые вводятся в конце процесса. Является ли более подходящим использованиеcyl
или дополнительная группа переменных, действительно зависит от компромисса смещения. Наличие группы в вашей окончательной модели значительно увеличит ее дисперсию, но это может быть тот случай, когда более низкий уклон компенсирует это!Это небольшое введение в то, как я научился считывать информацию с этих графиков. Я думаю, что они тонны веселья!
Я бы сказал, что аргументы за
wt
иam
четкие, они важны.cyl
гораздо тоньше, это важно в маленькой модели, но совсем не актуально в большой.Я не смог бы определить, что включать, основываясь только на рисунке, который действительно должен отвечать контексту того, что вы делаете. Можно сказать , что если вы хотите модель три предсказателя, а затем
wt
,am
иcyl
это хороший выбор, так как они актуальны в великой схеме вещей, и должны в конечном итоге, разумных размерах эффекта в небольшой модели. Это основано на предположении, что у вас есть какая-то внешняя причина желать иметь маленькую модель с тремя предикторами.Это правда, что этот тип анализа просматривает весь спектр лямбд и позволяет отбирать отношения по ряду модельных сложностей. Тем не менее, для окончательной модели, я думаю, настройка оптимальной лямбды очень важна. В отсутствие других ограничений я бы определенно использовал перекрестную проверку, чтобы найти, где вдоль этого спектра находится наиболее прогнозирующая лямбда, а затем использовал бы эту лямбду для окончательной модели и окончательного анализа.
С другой стороны, иногда существуют внешние ограничения на то, насколько сложной может быть модель (затраты на внедрение, устаревшие системы, объяснительный минимализм, интерпретация бизнеса, эстетическое наследие), и этот вид проверки действительно может помочь вам понять форму ваших данных, и компромиссы, которые вы делаете, выбирая модель меньше оптимальной.
источник