Важность переменных в логистической регрессии

11

Я, вероятно, имею дело с проблемой, которая, вероятно, была решена сто раз прежде, но я не уверен, где найти ответ.

При использовании логистической регрессии, учитывая многие функции и пытаясь предсказать двоичное категориальное значение y , я заинтересован в выборе подмножества признаков, которые хорошо предсказывают y .x1,...,xnyy

Есть ли процедура, похожая на лассо, которую можно использовать? (Я видел только лассо, используемое для линейной регрессии.)

Является ли рассмотрение коэффициентов подобранной модели показателем важности различных функций?

Правка - Разъяснения после просмотра некоторых ответов:

  1. Когда я имею в виду величину установленных коэффициентов, я имею в виду те, которые соответствуют нормализованным (среднее 0 и дисперсия 1) характеристикам. В противном случае, как указывает @probabilityislogic, 1000x будет казаться менее важным, чем x.

  2. Я не заинтересован в том, чтобы просто найти лучшее k-подмножество (как предлагал @Davide), а скорее взвесил важность различных функций относительно друг друга. Например, одна функция может быть «возраст», а другая функция «возраст> 30». Их возрастающее значение может быть небольшим, но оба могут быть важными.

Гай Адини
источник

Ответы:

8

Ответ DWin предлагает ответ, но мало понимания, поэтому я подумал, что было бы полезно дать некоторые объяснения.

p=P(yi=1|X=xi)

logp1p=logP(yi=1|X=xi)P(yi=0|X=xi)=β0+β1Txi

jppxij

После небольшой трансформации вы можете увидеть, что

p=eβ0+β1Txi1+eβ0+β1Txi

Как только вы вычислите свою производную, вы увидите, что

pxij=βjeβ0+β1Txi

Это явно зависит от значения всех других переменных. Однако вы можете заметить, что ЗНАК коэффициента можно интерпретировать так, как вы хотите: если он отрицательный, то эта функция уменьшает вероятность p.

β

βr^=β^β^+λ

Как вы можете видеть, это может изменить знак вашего коэффициента, так что даже эта интерпретация развалится.

marcin_j
источник
1
опечатка в знаменателе eq1?
Фернандо
7

Ответ на ваш последний вопрос - плоский НЕТ. Величина коэффициентов никоим образом не является показателем важности. Лассо можно использовать для логистической регрессии. Вы должны изучить область более усердно. Методы, которые вам нужно изучить, включают в себя «штрафные» методы. Если вы ищете методы обнаружения, которые раскрывают «затененные» предикторы, термин, который может быть определен где-то, но не является общепринятым, то вам нужно искать методы, которые проверяют взаимодействия и нелинейную структуру в пространстве предиктора и связь результатов с этим пространством. Об этих проблемах и методах довольно много говорится в тексте Фрэнка Харрелла «Стратегии регрессионного моделирования».

Стратегия обратного выбора не даст действительных результатов (хотя она и дает результаты). Если вы рассмотрели случай 20 случайных предикторов для 100 событий, вы, вероятно, найдете 2 или 3, которые будут выбраны с помощью процесса обратного выбора. Распространенность обратного выбора в реальном мире отражает не тщательную статистическую мысль, а скорее ее легкую доступность в SAS и SPSS и отсутствие изощренности пользовательской базы этих продуктов. Пользовательской базе R труднее получить доступ к таким методам и пользователям, которые публикуют запросы в списках рассылки, и поэтому они, как правило, получают информацию о проблемах, связанных с методами обратного (или прямого) выбора.

Dwin
источник
1
Я знаю, что должен - я был бы очень признателен за некоторые указания относительно того, с чего начать.
Гай Адини
xn+1=1000x1xn+11000x1
Пожалуйста, смотрите мои комментарии выше (используя нормализованные функции). Спасибо.
Гай Адини
Спасибо. Я посмотрю на это. Можете ли вы назвать несколько общих алгоритмов, которые используются в этой «проверке взаимодействий и нелинейной структуры в пространстве предиктора», или это очень индивидуальная ситуация?
Гай Адини
Вы можете использовать сплайны регрессии для поиска нелинейности, и термины сплайнов могут быть «пересечены», что позволяет идентифицировать эффекты, которые ограничены одной областью пространства двумерного прогнозирования. Вы также можете использовать методы локальной регрессии. В R наиболее часто используемым методом локальной регрессии, вероятно, является пакет mgcv, но более старый пакет locfit все еще доступен.
DWin
-4

Английский не мой родной язык, поэтому я, возможно, не понял, в чем ваша проблема, но если вам нужно найти лучшую модель, вы можете попробовать использовать обратную процедуру (и, в конечном итоге, добавить целые числа), начиная с модели со всеми ковариатами. Затем вы можете посмотреть как значения residuals_vs_predicted, так и графики qq-plot, чтобы проверить, хорошо ли модель описывает ваше явление.

Davide
источник
Благодаря! Я думаю, что вы предлагаете постепенно добавлять наиболее коррелированную функцию. Это имеет смысл, но не помогает мне понять, «насколько» функция A более важна, чем функция B. Например, предположим, что у меня есть одна функция x, а другая функция x + <small noise>. Тогда обе на самом деле являются полезными функциями, но одна затеняется другой. Я хочу, чтобы метод, который также показал бы х + <шум>, был важен.
Гай Адини
Нет, обратная процедура начинается с модели со всеми ковариатами, а затем шаг за шагом удаляет ковариату (чей коэффициент не является существенным) (пока у вас не получится модель с только значимыми коэффициентами, обычно). Я думаю, что есть более сложные способы достижения той же цели, но я всего лишь студент бакалавриата!
Давиде