Замена переменных на WoE (вес доказательств) в логистической регрессии

14

Это вопрос, касающийся практики или метода, которым следуют некоторые из моих коллег. При создании модели логистической регрессии я видел, как люди заменяли категориальные переменные (или непрерывные переменные, которые сгруппированы) на соответствующий вес доказательств (WoE). Предположительно это делается для установления монотонной связи между регрессором и зависимой переменной. Теперь, насколько я понимаю, после создания модели переменные в уравнении НЕ являются переменными в наборе данных. Скорее, переменные в уравнении теперь являются своего рода важностью или весом переменных в разделении зависимой переменной !

Мой вопрос: как мы теперь интерпретируем модель или модельные коэффициенты? Например, для следующего уравнения:

log(p1p)=β0+β1x1

мы можем сказать, что - это относительное увеличение нечетного отношения при увеличении на 1 единицу переменной .exp(β1) x1

Но если переменная заменена на ее WoE, то интерпретация будет изменена на: относительное увеличение нечетного отношения на 1 единицу увеличения ВАЖНОСТИ / ВЕСА переменной

Я видел эту практику в интернете, но нигде не нашел ответа на этот вопрос. Эта ссылка самого сообщества связана с похожим запросом, где кто-то написал:

WoE отображает линейную зависимость с натуральным логарифмом отношения шансов, который является зависимой переменной в логистической регрессии. Поэтому вопрос о неправильной спецификации модели не возникает в логистической регрессии, когда мы используем WoE вместо фактических значений переменной.

Но я до сих пор не получил объяснения. Пожалуйста, помогите мне понять, чего мне не хватает.

SamRoy
источник
x 1 x 1exp(β1) - это отношение шансов, связанное с увеличением на 1 единицу в , а не « относительное увеличение отношения шансов, связанное с увеличением на 1 единицу в ». x1x1
gung - Восстановить Монику
Нет. Очевидно, что для того, чтобы избавиться от вы должны взять коэффициент LHS после возведения в степеньβ0
SamRoy
Шансы p / (1-p), поэтому, если p (x) = exp (+0 + 𝛽1x) и p (x + 1) = exp (𝛽0 + 𝛽1x + 𝛽1), обратите внимание, что p (x + 1) = exp (+0 + 𝛽1x) exp (𝛽1) и, наконец, отношение шансов p (x + 1) / p (x) = exp (𝛽1), как указано в stats.stackexchange.com/users/7290/gung
hwrd

Ответы:

12

Метод WoE состоит из двух этапов:

1 - разделить (непрерывную) переменную на несколько категорий или сгруппировать (дискретную) переменную в несколько категорий (и в обоих случаях вы предполагаете, что все наблюдения в одной категории оказывают «одинаковое» влияние на зависимую переменную)
2 - для расчета WoE значение для каждой категории (тогда исходные значения x заменяются значениями WoE)

Преобразование WoE имеет (как минимум) три положительных эффекта:
1) Он может преобразовать независимую переменную, чтобы установить монотонную связь с зависимой переменной. На самом деле он делает больше, чем это - для обеспечения монотонных отношений было бы достаточно «перекодировать» его в любую упорядоченную меру (например, 1,2,3,4 ...), но преобразование WoE фактически упорядочивает категории по «логистике». «шкала, которая является естественной для логистической регрессии
2) Для переменных со слишком большим количеством (малонаселенных) дискретных значений их можно сгруппировать в категории (густонаселенные), а WoE можно использовать для выражения информации для всей категории
3) (одномерный) эффект каждой категории на зависимую переменную можно просто сравнить по категориям и по переменным, потому что WoE является стандартизированным значением (например, вы можете сравнить WoE женатых людей с WoE работников физического труда)

Он также имеет (как минимум) три недостатка:
1) Потеря информации (вариация) из-за объединения в несколько категорий
2) Это «одномерный» показатель, поэтому он не учитывает корреляцию между независимыми переменными
3) манипулировать (переопределять) эффект переменных в соответствии с тем, как создаются категории

Обычно бета-версии регрессии (где x был заменен WoE) не интерпретируются как таковые, но они умножаются на WoE для получения «балла» (например, бета-версия для переменной «семейное положение» может быть умножена на WoE: группа «состоящие в браке люди», чтобы увидеть оценку числа состоящих в браке людей; бета для переменной «род деятельности» может быть умножена на WoE «работники физического труда», чтобы увидеть оценку числа работников физического труда. Вы суммируете эти два балла и видите, как сильно это влияет на результат). Чем выше оценка, тем выше вероятность исхода, равного 1.

Лошадь царя Соломона
источник
1
(+1) Почему выгодно перекодировать предиктор, чтобы иметь монотонную связь с ответом?
Scortchi - Восстановить Монику
1
@ Scortchi Я могу привести пример: независимая переменная - это рост людей (измеряется в см), люди ходят по магазинам за красивой одеждой, зависимая переменная будет бинарным событием - могут они или не могут купить подходящую и удобную одежду. очевидно, очень маленьким и очень высоким людям будет трудно купить подходящую одежду, в то время как люди посередине могли бы легко это сделать. С помощью простой (без взаимодействий и без трансформаций) регрессии вы могли только смоделировать, что вероятность покупки подходящей одежды либо увеличивается, либо уменьшается с ростом людей
Лошадь царя Соломона,
1
Люди обычно не используют немонотонные преобразования предикторов - во всяком случае, не в эмпирическом моделировании. Включение взаимодействий может удалить или ввести условные немонотонные отношения, как и включение других предикторов. Но представление предиктора с полиномиальной или сплайн-базисной функцией является простым способом их учета; И другой биннинг это и впредь рассматривать его как Категориальные, с использованием , например опорным уровня кодирования. Последнее, по крайней мере, значительно проще, чем это преобразование WoE; Никто не делится ущерб ...
Scortchi - Восстановить Монику
1
... логический вывод и интерпретируемость, вытекающие из определения предиктора с точки зрения ответа; & все позволяют моделировать немонотонные условные отношения, даже если предельные отношения являются монотонными (или наоборот). Я полагаю, что я понимаю, что преобразование WoE мне кажется решением проблемы. Есть ли класс ситуаций, когда он дает лучшие прогнозы, чем более широко используемые методы? - хотя этот вопрос отличается от того, на который вы ответили здесь (возможно, stats.stackexchange.com/q/166816/17230 ).
Scortchi - Восстановить Монику
А что если у вас уже есть категориальные данные? тогда единственное преимущество «установить монотонные отношения»? Похоже, что критический компонент WoE на самом деле находится в процессе
information_interchange
7

Рациональным для использования WOE в логистической регрессии является создание так называемого полунаивного наивного байесовского классификатора (SNBC). Начало этого блога объясняет все довольно хорошо: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Бета-параметры в модели - это линейное смещение каждого наивного эффекта (или вес доказательств) из-за присутствия других предикторов, и их можно интерпретировать как линейное изменение логарифмических коэффициентов конкретных предикторов из-за наличия другие предикторы.

Stephened
источник
1

Weight of Evidence (WoE) - это мощная техника для выполнения переменного преобразования и выбора. Он широко используется в кредитном скоринге для измерения разделения хороших и плохих клиентов (переменные). Преимущества :: - Обрабатывает пропущенные значения. Обрабатывает выбросы, в которых преобразование основано на логритическом значении распределения. Нет необходимости в фиктивных переменных, используя правильную технику биннинга, это может установить монотонные отношения между независимыми и зависимыми.

mono_bin () = используется для числовых переменных. char_bin () = используется для символьных переменных.

Krishna75
источник