преамбула
Это длинный пост. Если вы перечитываете это, обратите внимание, что я пересмотрел часть вопроса, хотя исходные материалы остались прежними. Кроме того, я считаю, что разработал решение проблемы. Это решение появляется в нижней части поста. Спасибо CliffAB за то, что он указал, что мое оригинальное решение (отредактировано из этого поста; см. Историю изменений для этого решения) обязательно привело к смещенным оценкам.
проблема
В задачах классификации машинного обучения одним из способов оценки производительности модели является сравнение кривых ROC или площади под кривой ROC (AUC). Тем не менее, по моим наблюдениям, очень мало обсуждается вопрос об изменчивости кривых ROC или оценок AUC; то есть это статистика, рассчитанная на основе данных, и поэтому с ними связаны некоторые ошибки. Характеризация ошибки в этих оценках поможет, например, охарактеризовать, действительно ли один классификатор превосходит другой.
Я разработал следующий подход, который я называю байесовским анализом кривых ROC, чтобы решить эту проблему. В моей мысли о проблеме есть два ключевых замечания:
Кривые ROC составлены из оценочных величин из данных и поддаются байесовскому анализу.
Кривая ROC составляется путем построения графика истинного положительного значения и ложного положительного показателя , каждый из которых сам по себе оценивается на основе данных. Я рассматриваю функции и для , порог принятия решения, используемый для сортировки класса A из B (голос дерева в случайном лесу, расстояние от гиперплоскости в SVM, прогнозируемые вероятности в логистической регрессии и т. Д.). Варьирование значения порога принятия решения приведет к различным оценкам и . Более того, мы можем рассмотретьF P R ( θ ) T P R F P R θ θ T P R F P R T P R ( θ )быть оценкой вероятности успеха в последовательности испытаний Бернулли. В самом деле, TPR определяется как которая является также MLE вероятности биномиального успеха в эксперименте с успехов и общих испытаний.ТПТП+ФН>0
Таким образом, рассматривая выходные данные и как случайные переменные, мы сталкиваемся с проблемой оценки вероятности успеха биномиального эксперимента, в котором число успехов и неудач точно известно (учитывая по , , и , который я предполагаю , все фиксировано). Традиционно, один просто использует MLE и предполагает, что TPR и FPR фиксированы для определенных значенийF P R ( θ ) T P F P F N T N θ θ, Но в моем байесовском анализе кривых ROC я рисую апостериорное моделирование кривых ROC, которые получены путем отбора образцов из апостериорного распределения по кривым ROC. Стандартная байесовская модель для этой проблемы - биномиальная вероятность с бета-тестированием до вероятности успеха; апостериорное распределение вероятности успеха также бета, поэтому для каждого мы имеем апостериорное распределение значений TPR и FPR. Это подводит нас ко второму наблюдению.
- ROC кривые неубывающие. Таким образом, после того, как кто-то выбрал какое-то значение и , существует нулевая вероятность выбора точки в пространстве ROC "к юго-востоку" от выбранной точки. Но выборка с ограниченной формой является сложной проблемой.F P R ( θ )
Байесовский подход можно использовать для моделирования большого количества AUC из единого набора оценок. Например, 20 симуляций выглядят так по сравнению с исходными данными.
Этот метод имеет ряд преимуществ. Например, вероятность того, что AUC одной модели больше, чем другой, может быть непосредственно оценена путем сравнения AUC их последующего моделирования. Оценки дисперсии могут быть получены с помощью моделирования, которое дешевле, чем методы повторной выборки, и эти оценки не вызывают проблемы коррелированных выборок, которые возникают из-за методов повторной выборки.
Решение
Я разработал решение этой проблемы, сделав третье и четвертое замечание о природе проблемы, в дополнение к двум вышеупомянутым.
F P R ( θ ) и имеют предельные плотности, которые поддаются моделированию.
Если (вице- ) является бета-распределенной случайной величиной с параметрами и (вице- и ), мы также можем рассмотреть, какая плотность TPR усредняется по нескольким различным значениям которые соответствуют нашему анализу. То есть, мы можем рассмотреть иерархический процесс, в котором каждый выбирает значение из набора значений, полученных с помощью наших прогнозов модели вне выборки, а затем выбирает значение . Распределение по полученным образцамР Р Р ( & thetas ; ) Т Р Р Н Р Р Т Н & thetas ; ~ & thetas ; & thetas ; Т Р Р ( ~ & thetas ; ) Т Р Р ( ~ & thetas ; ) & thetas ; Т Р R ( & thetas ; ) с & thetas ; 1 / сЗначения - это плотность истинного положительного показателя, безусловная для самой . Поскольку мы предполагаем бета-модель для , результирующее распределение представляет собой смесь бета-распределений с числом компонентов равным размеру нашей коллекции , и смешанными коэффициентами .
В этом примере я получил следующий CDF на TPR. Примечательно, что из-за вырожденности бета-распределений, когда один из параметров равен нулю, некоторые компоненты смеси имеют дельта-функцию Дирака в 0 или 1. Это то, что вызывает внезапные пики в 0 и 1. Эти «пики» подразумевают, что эти плотности не являются ни непрерывными, ни дискретными. Выбор априора, который является положительным по обоим параметрам, будет иметь эффект «сглаживания» этих внезапных пиков (не показано), но результирующие кривые ROC будут вытянуты в сторону априора. То же самое можно сделать для FPR (не показано). Получение образцов из предельных плотностей - это простое применение выборки с обратным преобразованием.
Чтобы решить требование ограничения формы, мы просто должны отсортировать TPR и FPR независимо друг от друга.
Неубывающее требование аналогично требованию, чтобы предельные выборки из TPR и FPR сортировались независимо, то есть форма кривой ROC полностью определяется требованием, чтобы наименьшее значение TPR было согласовано с наименьшим FPR. значение и так далее, что означает, что построение случайной выборки с ограничением формы здесь тривиально. Для неподходящего предыдущего моделирования обеспечивают доказательство того, что построение кривой ROC таким образом дает выборки со средним значением AUC, которое сходится к исходному AUC в пределе большого количества выборок. Ниже KDE из 2000 симуляций.
Сравнение с Bootstrap
В длительном обсуждении в чате с @AdamO (спасибо, AdamO!) Он указал, что существует несколько установленных методов для сравнения двух кривых ROC или для характеристики изменчивости одной кривой ROC, в том числе начальной загрузки. В качестве эксперимента я попытался запустить мой пример, который состоит из наблюдений в наборе несогласных, и сравнить результаты с байесовским методом. Результаты сравниваются ниже (Реализация начальной загрузки здесь - это простая начальная загрузка - случайная выборка с заменой на размер оригинальной выборки. Беглое чтение на начальной загрузке выявляет значительные пробелы в моих знаниях о методах повторной выборки, так что, возможно, это не соответствующий подход.)
Эта демонстрация показывает, что среднее значение начальной загрузки смещено ниже среднего исходной выборки, и что KDE начальной загрузки приводит к четко определенным «горбам». Генезис этих горбов вряд ли загадочен - кривая ROC будет чувствительной к включению каждой точки, а эффект небольшой выборки (здесь n = 20) состоит в том, что базовая статистика более чувствительна к включению каждой точки. точка. (Подчеркнем, что этот паттерн не является артефактом пропускной способности ядра - обратите внимание на график коврика. Каждая полоса состоит из нескольких повторных загрузочных копий, которые имеют одинаковое значение. Начальная загрузка имеет 2000 повторений, но число различных значений явно намного меньше. Мы Можно сделать вывод, что горбы являются неотъемлемой чертой процедуры начальной загрузки.) Напротив, средние оценки Байеса AUC, как правило, очень близки к исходной оценке,
Вопрос
Мой пересмотренный вопрос заключается в том, является ли мое пересмотренное решение неверным. Хороший ответ докажет (или опровергнет), что полученные образцы кривых ROC являются предвзятыми, или аналогичным образом докажет или опровергнет другие качества этого подхода.
Ответы:
Во-первых, не существует общепринятого способа «анализа» кривой ROC: это просто график, который отображает прогнозирующую способность модели классификации. Вы, конечно, можете суммировать кривую ROC, используя c-статистику или AUC, но расчет доверительных интервалов и выполнение вывода с использованием -статистики хорошо понятны благодаря его связи с U-статистикой Уилкоксона.с
Обычно считается, что вы можете оценить изменчивость кривых ROC с помощью начальной загрузки Pepe Etzione Feng . Это хороший подход, потому что кривая ROC является эмпирической оценкой, а начальная загрузка является непараметрической. Параметрирование ничего таким способом вводят предположения и осложнения , такие как «плоская до действительно неинформативны?» Я не уверен, что это так.
И наконец, существует проблема псевдодоступности. Вы можете индуцировать изменчивость в кривых ROC, поставив априор который при всем использовании ROC является единственной вещью, которая обычно не считается случайной величиной. Затем вы предположили, что изменчивость TPR и FPR, вызванная изменчивостью в , независимы . Они не. На самом деле они полностью зависимы. Вы как бы вычисляете байесовский апостериор для своего собственного веса в килограммах и фунтах и говорите, что они не зависят друг от друга.θ θ
Взять, к примеру, модель с идеальной дискриминацией. Используя ваш метод, вы обнаружите, что доверительные интервалы представляют собой единицу площади. Они не! В модели с идеальной дискриминацией нет вариабельности. Бутстрап покажет вам это.
Если бы кто-то подошел к вопросу «анализа» РПЦ с байесовской точки зрения, возможно, было бы наиболее полезным решить проблему выбора модели, поставив априор в пространство моделей, используемых для анализа. Это было бы очень интересной проблемой.
источник