Особенности ранжирования в логистической регрессии

10

Я использовал логистическую регрессию. У меня есть шесть функций, я хочу знать важные функции в этом классификаторе, которые влияют на результат больше, чем другие функции. Я использовал информационное усиление, но, похоже, оно не зависит от используемого классификатора. Есть ли способ ранжировать объекты в соответствии с их важностью на основе конкретного классификатора (например, логистической регрессии)? Любая помощь будет высоко ценится.

BlueGirl
источник
3
Логистическая регрессия не является классификатором. Пожалуйста, перепишите свой вопрос, чтобы отразить, что логистическая регрессия является моделью прямой оценки вероятности.
Фрэнк Харрелл
1
Помимо вопроса, поднятого Фрэнком Харреллом, вы смотрели на значения ваших оценочных коэффициентов? Это определенно не лучший способ ранжирования функций, но он может дать вам отправную точку. p
usεr11852
9
Конечно, логистическая регрессия оценивает вероятности, а не явно классифицирует вещи, но кого это волнует? Часто цель состоит в том, чтобы решить, какой класс наиболее вероятен, и нет ничего плохого в том, чтобы называть его классификатором, если вы используете его именно для этого.
dsaxton

Ответы:

5

Я думаю, что ответ, который вы ищете, может быть алгоритм Боруты . Это метод-обертка, который напрямую измеряет важность объектов в смысле «все релевантности» и реализуется в пакете R , который создает хорошие графики, например, этот сюжетгде важность любого объекта находится на оси Y и сравнивается с ноль изображен синим цветом здесь. Этот пост описывает этот подход, и я бы порекомендовал вам прочитать его как очень четкое вступление.

babelproofreader
источник
Хорошее предложение (+1). Я думаю, что это немного излишне для этого приложения, но, тем не менее, хорошее дополнение. Я определенно ценю, что это будет хорошо в ситуациях. Знаете ли вы какие-либо сравнительные обзоры, в которых они сравнивались с другими алгоритмами классификации? p>>n
usεr11852
@ usεr11852 Нет, не знаю. Я только что столкнулся с этим сам за последнюю неделю или около того.
babelproofreader
Хммм ... Хорошо, Борута выглядит очень многообещающе, но я всегда скептически отношусь к новым великолепным алгоритмам, пока не рассматриваю их как часть более глубокого изучения и не вижу случаев, когда они не справляются ( без теоремы о бесплатном обеде ).
usεr11852
Интересная идея, но не связанная с логистической регрессией.
Фрэнк Харрелл
«Boruta - это метод выбора функций, а не метод ранжирования функций». См. Часто задаваемые вопросы на домашней странице пакета
stablefish
3

Чтобы начать понимать, как ранжировать переменные по важности для моделей регрессии, вы можете начать с линейной регрессии. Популярный подход к ранжированию важности переменной в модели линейной регрессии состоит в разложении на вклады, приписываемые каждой переменной. Но значение переменной не просто в линейной регрессии из-за корреляции между переменными. Обратитесь к документу, описывающему метод PMD (Feldman, 2005) [ 3 ]. Другой популярный подход - усреднение по порядкам (LMG, 1980) [ 2 ].R2

Не существует единого мнения о том, как ранжировать переменные для логистической регрессии. Хороший обзор этой темы дан в [ 1 ], он описывает адаптацию методов относительной важности линейной регрессии с использованием псевдо- для логистической регрессии.R2

Список популярных подходов к ранжированию важности признаков в моделях логистической регрессии:

  1. Логистическая псевдо-частичная корреляция (с использованием псевдо- )R2
  2. Адекватность: доля полного логарифмического правдоподобия, которая объясняется каждым предиктором в отдельности
  3. Соответствие: указывает на способность модели различать положительные и отрицательные переменные ответа. Для каждого предиктора строится отдельная модель, а показатель важности - это прогнозируемая вероятность истинных положительных результатов, основанная только на этом предикторе.
  4. Значение информации. Значения информации определяют количество информации о результате, полученном от предиктора. Он основан на анализе каждого предиктора по очереди, без учета других предикторов.

Ссылки:

  1. Об измерении относительной важности объяснительных переменных в логистической регрессии
  2. Относительная важность линейных регрессоров в R
  3. Относительная важность и ценность, Барри Фельдман (метод PMD)
Сандип С. Сандху
источник
0

minw,bi=1nlog(1+exp(yifw,b(xi)))+λw2
xiyiiwbfw,b(xi)

Предполагая, что все ваши нормализованы, например, путем деления на величину , довольно легко увидеть, какие переменные являются более важными: те, которые больше по сравнению с другими или (с отрицательной стороны) ) меньше по сравнению с другими. Они влияют на потери больше всего.xx

Если вы заинтересованы в поиске переменных, которые действительно важны, и в процессе не возражаете вычеркнуть несколько из них, вы можете упорядочить свою функцию потерь: мин ш , б п Е я = 1 журнал ( 1 + ехр ( - у я е ш , Ь ( х я ) ) ) + А , | ш |1

minw,bi=1nlog(1+exp(yifw,b(xi)))+λ|w|

Производные или регуляризатор довольно просты, поэтому я не буду упоминать их здесь. Использование этой формы регуляризации и соответствующего приведет к тому, что менее важные элементы в станут равными нулю, а остальные нет.шλw

Надеюсь, это поможет. Спросите, есть ли у вас дополнительные вопросы.

pAt84
источник
4
LR не является схемой классификации. Любое использование классификации становится шагом после оценки после определения функции полезности / стоимости. Кроме того, ФП не спрашивал о штрафной оценке максимального правдоподобия. Чтобы предоставить доказательства относительной важности переменных в регрессии, очень легко использовать загрузчик для получения пределов достоверности для рангов добавленной прогнозирующей информации, предоставляемой каждым предиктором. Пример приведен в главе 4 « Стратегии регрессионного моделирования», чьи онлайн-заметки и R-код доступны по адресу biostat.mc.vanderbilt.edu/RmS#Materials
Фрэнк Харрелл,
4
Профессор Харрелл, пожалуйста. Очевидно, что мы подходим к этому с двух разных сторон. Вы из статистического, а я из машинного обучения. Я уважаю вас, ваши исследования и вашу карьеру, но вы очень свободно можете сформулировать свой собственный ответ и позволить ОП решить, какой из них он считает лучшим ответом на свой вопрос. Я увлечен обучением, поэтому, пожалуйста, научите меня своему подходу, но не заставляйте меня покупать вашу книгу.
pAt84
1
Отмечу, что логистическая регрессия была разработана статистиком Д. Р. Коксом в 1958 году, за десятилетия до того, как существовало машинное обучение. Также важно отметить, что сформулированная вами «функция потерь» (которую лучше назвать целевой функцией?) Не имеет никакого отношения к классификации. И что означало для вас, что мои обширные заметки и аудиофайлы, доступные онлайн со всей информацией, на которую я ссылался, стоят чего-то?
Фрэнк Харрелл
2
Я проголосовал за оба начальных комментария, поскольку оба поднимают действительные пункты. Более поздние комментарии немного похожи на мелкие ссоры со мной ...
usεr11852
4
PS Попытка более ясного способа сказать это, оптимизация прогнозирования / оценки приводит к оптимальным решениям, потому что функция полезности применяется на втором этапе и может быть не связана с предикторами. Оптимизация прогнозирования / оценки не оптимизирует классификацию и наоборот. Оптимизация классификации сводится к использованию странной вспомогательной функции, которая адаптирована к имеющемуся набору данных и может не применяться к новым наборам данных. Люди, которые действительно хотят оптимизировать классификацию (не рекомендуется), могут использовать метод, который вообще обходит оценку / прогноз.
Фрэнк Харрелл