Обязательно ли логистическая регрессия, максимизирующая вероятность, также максимизирует AUC по сравнению с линейными моделями?

13

Учитывая набор данных с двоичными результатами и некоторой матрицей предикторов , стандартная модель логистической регрессии оценивает коэффициенты \ beta_ {MLE } которые максимизируют биномиальную вероятность. Когда X - полный ранг, \ beta_ {MLE} уникален; когда нет идеального разделения, оно конечно.y{0,1}nXRn×pβMLEXβMLE

Эта модель максимального правдоподобия также максимизирует ROC AUC (он же -статистический), или существует некоторая оценка коэффициента которая позволит получить более высокий ROC AUC? Если это правда, что MLE не обязательно максимизирует ROC AUC, то другой способ взглянуть на этот вопрос: «Есть ли альтернатива максимизации вероятности, которая всегда будет максимизировать ROC AUC логистической регрессии?»cβAUCβMLE

Я предполагаю, что модели в остальном одинаковы: мы не добавляем и не удаляем предикторы в или иным образом изменяем спецификацию модели, и я предполагаю, что модели, максимизирующие правдоподобие и максимизирующие AUC, используют одну и ту же функцию связи.X

Sycorax говорит восстановить Монику
источник
2
Конечно, если, например, какая-то функция связи генерирует лучшее соответствие, чем логит? Помимо этого, хороший вопрос, можно ли считать процесс генерирования данных логитом. βAUCβMLE
Nutle
Хороший вопрос, но учтите это. ROC и AUC используются для сравнения двух разных моделей, поэтому, если решение для оценки MLE какой-либо модели уникально, это означает, что вы можете получить другой AUC, только если вы измените спецификацию текущей модели и оцените новую модель через MLE. Таким образом, в этот момент возникает другой вопрос: существует ли какой-либо другой «лучший» метод оценки (алгоритм максимизации ecc), кроме простого MLE, применимый к той же модели, так что я получаю различные оценки коэффициентов, приводящих к новым «лучшим» бета-версиям с более высоким AUC?
1
Точно @Nutle, это будет другая спецификация
Fr1
@ Fr1 Да, вот что значит уникальный. В моем вопросе я подразумеваю что-то вроде «что если есть какая-то альтернатива MLE, которая достигает более высокого AUC?» Если это правда, что существует другая линейная модель (модель, отличная от MLE), которая достигает более высокого AUC, то об этом было бы интересно узнать.
Sycorax говорит восстановить
1
@Sycorax, что еще мы предполагаем? :) Предположения важны, так как, если мы знаем истинный DGP с использованием ссылки и переменных, MLE является наиболее мощной беспристрастной статистикой.
Nutle

Ответы:

11

Это не тот случай, когда βMLE=βAUC .

Чтобы проиллюстрировать это, рассмотрим, что AUC может быть написано как

P(y^1>y^0|y1=1,y0=0)

Другими словами, порядок предсказаний - единственное, что влияет на AUC . Это не относится к функции правдоподобия. Итак, в качестве умственного упражнения, предположим, что у нас были единственные предикторы, и в нашем наборе данных мы не видим идеального разделения (т. Е.βMLE конечно). Теперь, если мы просто примем значение самого большого предиктора и увеличим его на некоторое небольшое значение, мы изменим вероятность этого решения, но оно не изменит AUC, так как порядок должен остаться прежним. Таким образом, если старый MLE максимизировал AUC, он все равно будет максимизировать AUC после изменения предиктора, но больше не будет максимизировать вероятность.

Таким образом, по крайней мере, дело не в том, что βAUC не является уникальным; любое β которое сохраняет порядок оценок, достигает точно такой же AUC. В общем, так как AUC чувствителен к различным аспектам данных, я поверю , что мы должны быть в состоянии найти случай , когда βMLE не максимизирует βAUC . На самом деле, я бы рискнул предположить, что это происходит с большой вероятностью.

РЕДАКТИРОВАТЬ (перевод комментария в ответ)

Следующий шаг - доказать, что MLE не обязательно максимизирует AUC (что еще не доказано). Это можно сделать, взяв что-то вроде предикторов 1, 2, 3, 4, 5, 6, xx>6 ) с результатами 0, 0, 0, 1, 1, 1, 0. Любое положительное значение β будет максимизировать AUC (независимо от значения x ), но мы можем выбрать x достаточно большой, чтобы βMLE<0 .

Клифф AB
источник
1
(+1) Ах! Конечно, поскольку речь идет о порядке упорядочения, мы можем произвольно изменить точку пересечения, которая, очевидно, должна изменить значение вероятности, но порядок должен быть таким же, поскольку ни один из коэффициентов функции не изменился, поэтому AUC останется фиксированным.
Sycorax говорит восстановить
+1. Работает ли пример редактирования с ? Если нам нужно взять достаточно большое x, чтобы это работало с большим n , разве вероятность того, что такие значения быстро сходятся к 0, для некоторого фиксированного логита? nxn
Nutle
@Nutle: ну, зависит от того, что вы имеете в виду при . Если бы мы взяли n копий (предикторов + результатов) моего игрушечного набора данных, то да, результат был бы верен. Однако, если бы мы взяли n копий этого набора предикторов, а данные действительно были получены из модели логистической регрессии, это почти никогда бы не произошло (как вы указали). Однако обратите внимание, что что-то похожее на это может произойти с большой вероятностью, если отношение между предикторами на самом деле не будет следовать модели логистической регрессии. nnn
Клифф AB
Да, спасибо, говорил о размере. Итак, предполагая, что такое распределение с тяжелыми хвостами известно, будет ли пример сохраняться, если оценка MLE была скорректирована с учетом истинного распределения? Что я собираюсь сделать, так это если вероятность того, что существует для любой выборки n , не приближается к 0, не должна ли оценка MLE реагировать на нее соответствующим образом и не вести себя так, как это было бы с выбросами? Извините , если я не совсем ясно здесь с формулировкойxn
Nutle