Зачем делать преобразование WOE категориальных предикторов в логистической регрессии?

10

Когда полезно преобразование весовых доказательств (WOE) категориальных переменных?

Пример можно увидеть в трансформации WOE

(Таким образом, для ответа , & категорического предиктора с категориями & из испытаний в й категории этого предиктора, WOE для й категории определяется какk y j n j j jYКYJNJJJ

журналYJΣJКYJΣJК(NJ-YJ)NJ-YJ

& преобразование состоит из кодирования каждой категории категориального предиктора с его WOE для формирования нового непрерывного предиктора.)

Я хотел бы узнать причину, почему трансформация WOE помогает логистической регрессии. Какая теория стоит за этим?

Адам
источник

Ответы:

6

В примере, на который вы ссылаетесь, категориальный предиктор представлен единственной непрерывной переменной, принимающей значение для каждого уровня, равное наблюдаемым коэффициентам регистрации ответа на этом уровне (плюс константа):

logyjnjyj+logjk(njyj)jkyJ

Это запутывание не служит какой-либо цели, о которой я могу думать: вы получите такой же предсказанный ответ, как если бы вы использовали обычное фиктивное кодирование; но степени свободы неверны, лишая законной силы несколько полезных форм заключения о модели.

В множественной регрессии с несколькими категориальными предикторами для преобразования, я полагаю, вы рассчитали бы WOE для каждого, используя маржинальные шансы. Это изменит предсказанные ответы; но так как смешивание не принимается во внимание - условные логарифмические коэффициенты не являются линейной функцией предельных логарифмических коэффициентов - я не вижу причин полагать, что это улучшение, и логические проблемы остаются.

Scortchi - Восстановить Монику
источник
Можете ли вы объяснить, почему степень свободы не так с WOE? Это просто трансформация верно? Кроме того, что если бы у нас было несколько категориальных переменных, и мы получили WOE для каждой из них по одной? По моему опыту, когда у вас много категориальных переменных, некоторые сегменты между разными переменными многократно перекрываются, и вы начинаете видеть некоторые коэффициенты, которые незначительны. А также вам нужно иметь при себе несколько коэффициентов.
Адам
1
(1) Преобразование, которое зависит от оценки отношения предикторов к ответу - то, что должно быть оставлено на усмотрение регрессии. Так, например, статистика теста отношения правдоподобия не будет иметь такое же распределение, как при предварительном задании преобразования. (2) Хорошая мысль! - множественная регрессия на WOE не будет эквивалентна регрессии на фиктивных переменных (если модели не насыщены). (3) И что? (4) Коэффициенты не тяжелее, чем WOE.
Scortchi - Восстановить Монику
Я предполагаю, что WoE пережил те времена, когда вычисления были большей проблемой, чем сегодня. Так что, возможно, с категориальными предикторами с МНОГИМИ уровнями преобразование в числовую переменную было блестящей идеей!
Къетил б Халворсен
1

Грубая классификация, использующая меру веса доказательств (WoE), имеет следующее преимущество: WoE отображает линейную зависимость с натуральным логарифмом отношения шансов, который является зависимой переменной в логистической регрессии.
Поэтому вопрос о неправильной спецификации модели не возникает в логистической регрессии, когда мы используем WoE вместо фактических значений переменной.

LN(п/1-п) = + * + * + *αβWоЕ(Вaр1)γWоЕ(Вaр2)ηWоЕ(Вaр3)

Источник: в одном из PPT мой тренер показал мне во время обучения компании.

Срикант Гухан
источник
2
«Неправильная спецификация модели не возникает в логистической регрессии, когда мы используем WoE вместо фактических значений переменной». Можете ли вы объяснить / доказать это математически?
Адам
Я не из аналитики риска, но, похоже, так написано в 131 131 этой книге books.google.co.in/…
Срикант Гухан,
Также эта ссылка претендует на то же самое, хотя математика не объясняется analyticbridge.com/forum/topics/…
Срикант Гухан
1
Спасибо за ссылки, но совершенно не соответствует действительности то, что предельные логарифмические коэффициенты, которым пропорционален WoE, линейно связаны с условными логарифмическими коэффициентами, с которыми связана логистическая регрессия. Смешение с другими предикторами может даже привести к разным категориям упорядочения WoE.
Scortchi - Восстановить Монику
1

Преобразования WOE помогают, когда у вас есть как числовые, так и категориальные данные, которые необходимо объединить, и пропущенные значения, из которых вы хотите извлечь информацию. Преобразование всего в WOE помогает «стандартизировать» множество различных типов данных (даже отсутствующих данных) в одном и том же масштабе журнала. Это сообщение в блоге объясняет вещи достаточно хорошо: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Суть в том, что Логистическая регрессия с WOE должна просто называться (и называется) полунаивным наивным байесовским классификатором (SNBC). Если вы пытаетесь понять алгоритм, название SNBC для меня гораздо более информативно.

Stephened
источник