Я использовал логистическую регрессию. У меня есть шесть функций, я хочу знать важные функции в этом классификаторе, которые влияют на результат больше, чем другие функции. Я использовал информационное усиление, но, похоже, оно не зависит от используемого классификатора. Есть ли способ ранжировать объекты в соответствии с их важностью на основе конкретного классификатора (например, логистической регрессии)? Любая помощь будет высоко ценится.
10
Ответы:
Я думаю, что ответ, который вы ищете, может быть алгоритм Боруты . Это метод-обертка, который напрямую измеряет важность объектов в смысле «все релевантности» и реализуется в пакете R , который создает хорошие графики, например, где важность любого объекта находится на оси Y и сравнивается с ноль изображен синим цветом здесь. Этот пост описывает этот подход, и я бы порекомендовал вам прочитать его как очень четкое вступление.
источник
Чтобы начать понимать, как ранжировать переменные по важности для моделей регрессии, вы можете начать с линейной регрессии. Популярный подход к ранжированию важности переменной в модели линейной регрессии состоит в разложении на вклады, приписываемые каждой переменной. Но значение переменной не просто в линейной регрессии из-за корреляции между переменными. Обратитесь к документу, описывающему метод PMD (Feldman, 2005) [ 3 ]. Другой популярный подход - усреднение по порядкам (LMG, 1980) [ 2 ].R2
Не существует единого мнения о том, как ранжировать переменные для логистической регрессии. Хороший обзор этой темы дан в [ 1 ], он описывает адаптацию методов относительной важности линейной регрессии с использованием псевдо- для логистической регрессии.R2
Список популярных подходов к ранжированию важности признаков в моделях логистической регрессии:
Ссылки:
источник
Предполагая, что все ваши нормализованы, например, путем деления на величину , довольно легко увидеть, какие переменные являются более важными: те, которые больше по сравнению с другими или (с отрицательной стороны) ) меньше по сравнению с другими. Они влияют на потери больше всего.x x
Если вы заинтересованы в поиске переменных, которые действительно важны, и в процессе не возражаете вычеркнуть несколько из них, вы можете упорядочить свою функцию потерь: мин ш , б п Е я = 1 журнал ( 1 + ехр ( - у я е ш , Ь ( х я ) ) ) + А , | ш |ℓ1
Производные или регуляризатор довольно просты, поэтому я не буду упоминать их здесь. Использование этой формы регуляризации и соответствующего приведет к тому, что менее важные элементы в станут равными нулю, а остальные нет.шλ w
Надеюсь, это поможет. Спросите, есть ли у вас дополнительные вопросы.
источник