Учитывая набор данных с двоичными результатами и некоторой матрицей предикторов , стандартная модель логистической регрессии оценивает коэффициенты \ beta_ {MLE } которые максимизируют биномиальную вероятность. Когда X - полный ранг, \ beta_ {MLE} уникален; когда нет идеального разделения, оно конечно.
Эта модель максимального правдоподобия также максимизирует ROC AUC (он же -статистический), или существует некоторая оценка коэффициента которая позволит получить более высокий ROC AUC? Если это правда, что MLE не обязательно максимизирует ROC AUC, то другой способ взглянуть на этот вопрос: «Есть ли альтернатива максимизации вероятности, которая всегда будет максимизировать ROC AUC логистической регрессии?»
Я предполагаю, что модели в остальном одинаковы: мы не добавляем и не удаляем предикторы в или иным образом изменяем спецификацию модели, и я предполагаю, что модели, максимизирующие правдоподобие и максимизирующие AUC, используют одну и ту же функцию связи.
источник
Ответы:
Это не тот случай, когдаβMLE=βAUC .
Чтобы проиллюстрировать это, рассмотрим, что AUC может быть написано как
Другими словами, порядок предсказаний - единственное, что влияет на AUC . Это не относится к функции правдоподобия. Итак, в качестве умственного упражнения, предположим, что у нас были единственные предикторы, и в нашем наборе данных мы не видим идеального разделения (т. Е.βMLE конечно). Теперь, если мы просто примем значение самого большого предиктора и увеличим его на некоторое небольшое значение, мы изменим вероятность этого решения, но оно не изменит AUC, так как порядок должен остаться прежним. Таким образом, если старый MLE максимизировал AUC, он все равно будет максимизировать AUC после изменения предиктора, но больше не будет максимизировать вероятность.
Таким образом, по крайней мере, дело не в том, чтоβAUC не является уникальным; любое β которое сохраняет порядок оценок, достигает точно такой же AUC. В общем, так как AUC чувствителен к различным аспектам данных, я поверю , что мы должны быть в состоянии найти случай , когда βMLE не максимизирует βAUC . На самом деле, я бы рискнул предположить, что это происходит с большой вероятностью.
РЕДАКТИРОВАТЬ (перевод комментария в ответ)
Следующий шаг - доказать, что MLE не обязательно максимизирует AUC (что еще не доказано). Это можно сделать, взяв что-то вроде предикторов 1, 2, 3, 4, 5, 6,x (с x>6 ) с результатами 0, 0, 0, 1, 1, 1, 0. Любое положительное значение β будет максимизировать AUC (независимо от значения x ), но мы можем выбрать x достаточно большой, чтобы βMLE<0 .
источник