Что такое «отклонение вывода» и как его можно использовать для повышения точности модели?

10

Кто-нибудь может объяснить подробно:

  1. Что означает отклонение вывода?
  2. Как это можно использовать для повышения точности моей модели?

У меня есть идея отказаться от логического вывода в приложении к кредитной карте, но я пытаюсь использовать его для повышения точности моей модели.

Аюш Бияни
источник

Ответы:

23

В построении кредитной модели вывод отклонения - это процесс определения производительности кредитных счетов, которые были отклонены в процессе подачи заявки.

При построении модели кредитного риска для приложения мы хотим создать модель, которая имеет применимость « сквозь дверь », т. Е. Мы вводим все данные приложения в модель кредитного риска, а модель выводит рейтинг или вероятность риска. по умолчанию. Проблема при использовании регрессии для построения модели из прошлых данных состоит в том, что мы знаем производительность учетной записи только для прошлых принятых приложений. Однако мы не знаем, как отбраковывают, потому что после подачи заявки мы отослали их обратно за дверь. Это может привести к смещению выбора в нашей модели, потому что, если мы используем только прошлые «принимает» в нашей модели, модель может не работать хорошо на «сквозной» совокупности.

Есть много способов справиться с выводом отказа, все они противоречивы. Я упомяну два простых здесь.

  • «Определить прошлое отвергает как плохое»
  • накладывание клетневины

«Определить прошлые отклонения как плохие» - это просто сбор всех отвергнутых данных приложения, и вместо того, чтобы отбрасывать их при построении модели, назначать их как плохие. Этот метод сильно смещает модель в сторону политики принятия / отклонения в прошлом.

«Parceling» немного сложнее. Это состоит из

  1. Построить регрессионную модель с прошлым "принимает"
  2. Применить модель к прошлым отказам, чтобы присвоить им рейтинги риска
  3. Используя ожидаемую вероятность дефолта для каждой оценки риска, присвойте отклоненным заявкам статус хорошего или плохого. Например, если рейтинг риска имеет вероятность дефолта в 10%, и есть 100 отклоненных заявок, которые попадают в этот рейтинг риска, присвойте 10 отклонений «плохому» и 90 отклонений «хорошему».
  4. Перестройте регрессионную модель, используя принятые приложения, а теперь оцените производительность отклоненных приложений.

На шаге 3 существуют различные способы сделать назначения хорошими или плохими, и этот процесс также можно применять итеративно.

Как указывалось ранее, использование бракованного вывода является спорным, и трудно дать прямой ответ о том, как его можно использовать для повышения точности моделей. Я просто процитирую некоторых других по этому вопросу.

Джонатан Крук и Джон Банасик, действительно ли Отклонение выводов повышает производительность моделей оценки приложений?

Во-первых, даже в тех случаях, когда отклоняется очень большая часть заявителей, возможности улучшения модели, параметризованной только для принятых, представляются скромными. Там, где уровень отторжения не так велик, этот охват действительно очень мал.

Дэвид Хэнд, «Прямой вывод в кредитных операциях», появляется в «Справочнике по кредитному скорингу», 2001

Несколько методов были предложены и используются, и, хотя некоторые из них явно плохие и никогда не должны рекомендоваться, не существует уникального лучшего метода универсального применения, если не получена дополнительная информация. Таким образом, лучшее решение - это получить больше информации (возможно, путем предоставления ссуд некоторым потенциальным отказчикам) о тех заявителях, которые попадают в регион отказа.

Дерек Плур
источник
1
+1 для обширного обзора. Теперь я тоже знаю, что такое отклонение вывода :)
mpiktas
1
Спасибо. но как вы назначаете в шаге 3? Я читал, что вместо 1 или 0 вы можете использовать вероятность для каждой строки. Таким образом, у вас будет один и тот же человек с 10% и 90%. Как это может работать с созданием новой логистической модели?
GabyLP
1

@GabyLP в предыдущих комментариях. Исходя из моего опыта, вы можете разделить таких клиентов на две части и назначить веса для обоих разделений в соответствии с вероятностью. Например, если отклоненный клиент имеет 10% PD, вы можете сделать из него двух клиентов. Первый имеет целевую переменную 1 и вес 0,1, а второй имеет целевую переменную 0 и вес 0,9.

Весь принятый образец клиентов будет иметь вес == 1.

Хотя это работает с логистической регрессией, оно не работает с моделями на основе дерева.

MiksL
источник
У вас есть источник для вашего заявления?
Т. Беж
Если вопрос о том, что он не работает на древовидных моделях, тогда мой ответ - личный опыт. Я пытался реализовать этот подход, но не удалось.
МиксЛ