Это вопрос, касающийся практики или метода, которым следуют некоторые из моих коллег. При создании модели логистической регрессии я видел, как люди заменяли категориальные переменные (или непрерывные переменные, которые сгруппированы) на соответствующий вес доказательств (WoE). Предположительно это делается для установления монотонной связи между регрессором и зависимой переменной. Теперь, насколько я понимаю, после создания модели переменные в уравнении НЕ являются переменными в наборе данных. Скорее, переменные в уравнении теперь являются своего рода важностью или весом переменных в разделении зависимой переменной !
Мой вопрос: как мы теперь интерпретируем модель или модельные коэффициенты? Например, для следующего уравнения:
мы можем сказать, что - это относительное увеличение нечетного отношения при увеличении на 1 единицу переменной .
Но если переменная заменена на ее WoE, то интерпретация будет изменена на: относительное увеличение нечетного отношения на 1 единицу увеличения ВАЖНОСТИ / ВЕСА переменной
Я видел эту практику в интернете, но нигде не нашел ответа на этот вопрос. Эта ссылка самого сообщества связана с похожим запросом, где кто-то написал:
WoE отображает линейную зависимость с натуральным логарифмом отношения шансов, который является зависимой переменной в логистической регрессии. Поэтому вопрос о неправильной спецификации модели не возникает в логистической регрессии, когда мы используем WoE вместо фактических значений переменной.
Но я до сих пор не получил объяснения. Пожалуйста, помогите мне понять, чего мне не хватает.
Ответы:
Метод WoE состоит из двух этапов:
1 - разделить (непрерывную) переменную на несколько категорий или сгруппировать (дискретную) переменную в несколько категорий (и в обоих случаях вы предполагаете, что все наблюдения в одной категории оказывают «одинаковое» влияние на зависимую переменную)
2 - для расчета WoE значение для каждой категории (тогда исходные значения x заменяются значениями WoE)
Преобразование WoE имеет (как минимум) три положительных эффекта:
1) Он может преобразовать независимую переменную, чтобы установить монотонную связь с зависимой переменной. На самом деле он делает больше, чем это - для обеспечения монотонных отношений было бы достаточно «перекодировать» его в любую упорядоченную меру (например, 1,2,3,4 ...), но преобразование WoE фактически упорядочивает категории по «логистике». «шкала, которая является естественной для логистической регрессии
2) Для переменных со слишком большим количеством (малонаселенных) дискретных значений их можно сгруппировать в категории (густонаселенные), а WoE можно использовать для выражения информации для всей категории
3) (одномерный) эффект каждой категории на зависимую переменную можно просто сравнить по категориям и по переменным, потому что WoE является стандартизированным значением (например, вы можете сравнить WoE женатых людей с WoE работников физического труда)
Он также имеет (как минимум) три недостатка:
1) Потеря информации (вариация) из-за объединения в несколько категорий
2) Это «одномерный» показатель, поэтому он не учитывает корреляцию между независимыми переменными
3) манипулировать (переопределять) эффект переменных в соответствии с тем, как создаются категории
Обычно бета-версии регрессии (где x был заменен WoE) не интерпретируются как таковые, но они умножаются на WoE для получения «балла» (например, бета-версия для переменной «семейное положение» может быть умножена на WoE: группа «состоящие в браке люди», чтобы увидеть оценку числа состоящих в браке людей; бета для переменной «род деятельности» может быть умножена на WoE «работники физического труда», чтобы увидеть оценку числа работников физического труда. Вы суммируете эти два балла и видите, как сильно это влияет на результат). Чем выше оценка, тем выше вероятность исхода, равного 1.
источник
Рациональным для использования WOE в логистической регрессии является создание так называемого полунаивного наивного байесовского классификатора (SNBC). Начало этого блога объясняет все довольно хорошо: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
Бета-параметры в модели - это линейное смещение каждого наивного эффекта (или вес доказательств) из-за присутствия других предикторов, и их можно интерпретировать как линейное изменение логарифмических коэффициентов конкретных предикторов из-за наличия другие предикторы.
источник
Weight of Evidence (WoE) - это мощная техника для выполнения переменного преобразования и выбора. Он широко используется в кредитном скоринге для измерения разделения хороших и плохих клиентов (переменные). Преимущества :: - Обрабатывает пропущенные значения. Обрабатывает выбросы, в которых преобразование основано на логритическом значении распределения. Нет необходимости в фиктивных переменных, используя правильную технику биннинга, это может установить монотонные отношения между независимыми и зависимыми.
mono_bin () = используется для числовых переменных. char_bin () = используется для символьных переменных.
источник