Является ли когда-нибудь хорошей идеей дать «частичный кредит» (непрерывный результат) в обучении логистической регрессии?

Я тренирую логистическую регрессию, чтобы предсказать, какие бегуны, скорее всего, закончат изнурительную гонку на выносливость.

Очень немногие бегуны заканчивают эту гонку, поэтому у меня серьезный дисбаланс классов и небольшой пример успеха (возможно, несколько десятков). Я чувствую, что могу получить хороший «сигнал» от десятков бегунов, которые почти сделали это. (Мои тренировочные данные имеют не только завершение, но также и то, как далеко те, кто не закончил, на самом деле сделали это.) Поэтому мне интересно, является ли это ужасной идеей или не включать какой-то «частичный зачет». Я придумал пару функций для частичного кредитования, линейного изменения и логистической кривой, которым можно было бы задавать различные параметры.

Единственная разница с регрессией состоит в том, что я буду использовать данные обучения для прогнозирования измененного, непрерывного результата вместо двоичного результата. Сравнивая их прогнозы на тестовом наборе (с использованием бинарного ответа), я получил довольно неубедительные результаты - частичный логистический кредит, казалось, незначительно улучшал R-квадрат, AUC, P / R, но это была всего лишь одна попытка одного варианта использования с использованием маленький образец.

Меня не волнует, что прогнозы будут одинаково смещены к завершению - меня интересует правильное ранжирование участников по их вероятности финиша или, возможно, даже оценка их относительной вероятности финиша.

Я понимаю, что логистическая регрессия предполагает линейную связь между предикторами и логарифмом отношения шансов, и, очевидно, это отношение не имеет реальной интерпретации, если я начну портить результаты. Я уверен, что это не умно с теоретической точки зрения, но это может помочь получить некоторый дополнительный сигнал и предотвратить переоснащение. (У меня почти столько же предикторов, сколько и успехов, поэтому может быть полезно использовать отношения с частичным завершением для проверки отношений с полным завершением).

Используется ли когда-либо этот подход в ответственной практике?

В любом случае, существуют ли другие типы моделей (может быть, что-то, что явно моделирует уровень опасности, применяемый на расстоянии вместо времени), который может лучше подходить для такого типа анализа?

logistic binary-data continuous-data C8H10N4O2
источник

Ответы:

Это похоже на работу по анализу выживания, например, анализ пропорциональных рисков Кокса или, возможно, некоторую параметрическую модель выживания.

Думайте об этой проблеме в противоположность тому, как вы ее объясняете: какие переменные предиктора связаны с более ранними расстояниями до отказа от курения ?

Выход это событие. Пройденное расстояние можно считать эквивалентным времени события в стандартном анализе выживаемости. Тогда у вас будет количество событий, равное количеству людей, которые уйдут, поэтому ваша проблема с ограниченным количеством предикторов уменьшится. Все, кто ушел, предоставляют информацию.

Модель Кокса, если она работает с вашими данными, предоставит линейный предиктор, основанный на всех значениях переменных предиктора, ранжирование участников в порядке прогнозируемых расстояний до выхода.

магистр педагогических наук
источник

Спасибо за это. Похоже, вы говорите, что при использовании модели Кокса бегуны с самым длинным прогнозируемым расстоянием до броска также с наименьшей вероятностью будут выходить до финишного расстояния из-за пропорциональной конструкции рисков. Это точно? Кроме того, так как вы рекомендуете это, предположить, что идея частичного кредита не показалась вам достаточно обоснованной?

C8H10N4O2

Это по сути правильно. Я рассматриваю включение расстояния до отказа в модели выживания как способ дать «частичный кредит» таким образом, который имеет твердое теоретическое и практическое обоснование. Я не проработал детали, но я подозреваю, что это именно то, что вы хотели, как показано на графике.

EdM