Я изучаю курс машинного обучения, и слайды лекций содержат информацию, которая, на мой взгляд, противоречит рекомендуемой книге.
Проблема в следующем: существует три классификатора:
- классификатор А, обеспечивающий лучшую производительность в нижнем диапазоне порогов,
- классификатор B, обеспечивающий лучшую производительность в более высоком диапазоне порогов,
- Классификатор C, что мы получаем, подбрасывая p-монету и выбирая из двух классификаторов.
Какова будет производительность классификатора C, если смотреть на кривую ROC?
На слайдах лекции говорится, что, просто перевернув эту монету, мы получим магический « выпуклый корпус » кривой ROC классификатора A и B.
Я не понимаю этот момент. Как мы можем получить информацию, просто подбрасывая монетку?
Слайд лекции
О чем говорит книга
С другой стороны, в рекомендованной книге ( Data Mining ... Ian H. Witten, Eibe Frank и Mark A. Hall ) говорится:
Чтобы увидеть это, выберите конкретное ограничение вероятности для метода A, который дает истинные и ложные положительные значения tA и fA, соответственно, и другое ограничение для метода B, который дает tB и fB. Если вы используете эти две схемы случайным образом с вероятностями p и q, где p + q = 1, то вы получите истинные и ложные положительные значения p. tA + q. ТБ и р. fA + q. Fb. Это представляет точку, лежащую на прямой линии, соединяющей точки (tA, fA) и (tB, fB), и, изменяя p и q, вы можете проследить всю линию между этими двумя точками.
В моем понимании, книга говорит о том, что для того, чтобы на самом деле получить информацию и достичь выпуклой оболочки, нам нужно сделать что-то более продвинутое, чем просто подбрасывание p-монеты.
AFAIK, правильный путь (как предполагает книга) заключается в следующем:
- мы должны найти оптимальный порог Oa для классификатора A
- мы должны найти оптимальный порог Ob для классификатора B
определить C следующим образом:
- Если t <Oa, используйте классификатор A с t
- Если t> Ob, используйте классификатор B с t
- Если Oa <t <Ob, выберите между классификатором A с Oa и B с Ob по вероятности в виде линейной комбинации того, где мы находимся между Oa и Ob.
Это верно? Если да, то есть несколько ключевых отличий по сравнению с тем, что предлагают слайды.
- Это не просто подбрасывание монет, а более продвинутый алгоритм, который требует заданных вручную точек и пиков в зависимости от того, в какой регион мы попадаем.
- Он никогда не использует классификаторы A и B с пороговыми значениями между Oa и Ob.
Можете ли вы объяснить мне эту проблему и как правильно ее понять , если мое понимание было неверным?
Что произойдет, если мы просто перевернем p-монету, как показывают слайды? Я думаю, что мы получим кривую ROC, которая находится между A и B, но никогда не «лучше», чем лучшая в данной точке.
Насколько я понимаю, я действительно не понимаю, как слайды могут быть правильными. Вероятностный расчет на левой стороне не имеет смысла для меня.
Обновление: нашел статью, написанную оригинальным автором, который изобрел метод выпуклой оболочки: http://www.bmva.org/bmvc/1998/pdf/p082.pdf
Ответы:
(Edited)
Слайды лекции верны.
Метод A имеет «оптимальную точку», которая дает истинные и ложные положительные значения (TPA, FPA на графике) соответственно. Эта точка будет соответствовать пороговому значению или, в общем, [*] оптимальной границе решения для A. Все то же самое относится и к B. (Но пороговые значения и границы не связаны).
Видно, что классификатор A работает хорошо при предпочтении «минимизировать ложные срабатывания» (консервативная стратегия) и классификаторе B, когда мы хотим «максимизировать истинные срабатывания» (нетерпеливая стратегия).
Ответ на ваш первый вопрос, в основном, да, за исключением того, что вероятность монеты (в некотором смысле) произвольна. Окончательный класс будет:(Исправлено: на самом деле, лекции абсолютно правильные, мы можем просто перевернуть монету в любом случае. См. Схемы)
[*] Вы должны быть здесь общими: если вы думаете с точки зрения единственного скалярного порога, все это имеет мало смысла; одномерный объект с классификатором на основе пороговых значений не дает достаточных степеней свободы, чтобы иметь разные классификаторы, такие как A и B, который работает по разным кривым при изменении свободных параметров (граница решения = порог). Другими словами: A и B называются «методами» или «системами», а не «классификаторами»; потому что A - это целое семейство классификаторов, параметризованных некоторым параметром (скаляр), который определяет границу решения, а не просто скаляр]
Я добавил несколько диаграмм, чтобы сделать их более понятными:
Тогда в этом сценарии можно сказать, что заполненная оранжевая линия является «оптимальным классификатором A» (внутри его семейства), и то же самое для B. Но нельзя сказать, лучше ли оранжевая линия, чем синяя: лучше, когда мы назначаем высокую стоимость ложным срабатываниям, а другую - когда ложные отрицания намного дороже.
Теперь может случиться так, что эти два классификатора слишком экстремальны для наших нужд, нам бы хотелось, чтобы оба типа ошибок имели одинаковый вес. Мы бы предпочли вместо того, чтобы использовать классификатор A (оранжевая точка) или B (синяя точка), чтобы достичь производительности, которая находится между ними. Как говорят участники курса, этого можно достичь, просто подбросив монетку и выбрав один из классификаторов наугад.
Мы не получаем информацию. Наш новый рандомизированный классификатор не просто «лучше», чем A или B, его производительность является своего рода средним значением для A и B в отношении затрат, связанных с каждым типом ошибки. Это может быть или не выгодно для нас, в зависимости от наших затрат.
источник
Я согласен с твоими рассуждениями. Если вы используете классификатор путем подбрасывания монет, чтобы выбрать один, когда вы находитесь между точками А и В, ваша точка на кривой всегда будет ниже лучшего классификатора и выше более низкого, и, возможно, не выше обоих! Там должно быть что-то не так с диаграммой. В точке пересечения 2 кривых ROC алгоритм случайного выбора будет иметь ту же производительность, что и два алгоритма. Он не будет выше того, что изображено на диаграмме.
источник