Когда полезно преобразование весовых доказательств (WOE) категориальных переменных?
Пример можно увидеть в трансформации WOE
(Таким образом, для ответа , & категорического предиктора с категориями & из испытаний в й категории этого предиктора, WOE для й категории определяется какk y j n j j j
& преобразование состоит из кодирования каждой категории категориального предиктора с его WOE для формирования нового непрерывного предиктора.)
Я хотел бы узнать причину, почему трансформация WOE помогает логистической регрессии. Какая теория стоит за этим?
Грубая классификация, использующая меру веса доказательств (WoE), имеет следующее преимущество: WoE отображает линейную зависимость с натуральным логарифмом отношения шансов, который является зависимой переменной в логистической регрессии.
Поэтому вопрос о неправильной спецификации модели не возникает в логистической регрессии, когда мы используем WoE вместо фактических значений переменной.
Источник: в одном из PPT мой тренер показал мне во время обучения компании.
источник
Преобразования WOE помогают, когда у вас есть как числовые, так и категориальные данные, которые необходимо объединить, и пропущенные значения, из которых вы хотите извлечь информацию. Преобразование всего в WOE помогает «стандартизировать» множество различных типов данных (даже отсутствующих данных) в одном и том же масштабе журнала. Это сообщение в блоге объясняет вещи достаточно хорошо: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
Суть в том, что Логистическая регрессия с WOE должна просто называться (и называется) полунаивным наивным байесовским классификатором (SNBC). Если вы пытаетесь понять алгоритм, название SNBC для меня гораздо более информативно.
источник