У меня есть вопрос относительно классификации в целом. Пусть f - классификатор, который выводит набор вероятностей с учетом некоторых данных D. Обычно можно сказать: хорошо, если P (c | D)> 0,5, мы назначим класс 1, в противном случае 0 (пусть это будет двоичный файл классификация).
Мой вопрос заключается в том, что если я узнаю, что если я классифицирую как 1 также и вероятности, большие чем: т.е. 0,2, классификатор работает лучше. Законно ли тогда использовать этот новый порог при выполнении классификации?
Я бы интерпретировал необходимость более низкой границы классификации в контексте данных, испускающих меньший сигнал; но все еще значимым для проблемы классификации.
Я понимаю, что это один из способов сделать это, но если это не правильное мышление, какие будут некоторые преобразования данных, которые подчеркивают отдельные особенности аналогичным образом, так что порог может оставаться на уровне 0,5?
источник
Ответы:
Фрэнк Харрелл написал об этом в своем блоге: Классификация против прогноза , с чем я искренне согласен.
По сути, его аргумент заключается в том, что статистический компонент вашего упражнения заканчивается, когда вы выводите вероятность для каждого класса новой выборки. Выбор порога, по которому вы классифицируете новое наблюдение как 1 против 0, больше не является частью статистики . Это часть компонента решения . И здесь вам нужен вероятностный вывод вашей модели - но также такие соображения, как:
Итак, чтобы ответить на ваш вопрос: поговорите с конечным потребителем вашей классификации и получите ответы на поставленные выше вопросы. Или объясните ей свой вероятностный результат и дайте ей или ему пройти через следующие шаги.
источник
Ответ Стефана великолепен. Это в основном зависит от того, что вы хотите сделать с классификатором.
Просто добавлю несколько примеров.
Способ найти лучший порог - определить целевую функцию. Для бинарной классификации это может быть, например, точность или оценка F1. В зависимости от того, что вы выберете, лучший порог будет отличаться. Для F1-баллов здесь есть интересный ответ: что такое F1-оптимальный порог? Как рассчитать это? , Но, говоря «Я хочу использовать счет Ф1», вы действительно делаете выбор. Хороший этот выбор или нет, зависит от конечной цели.
Еще один способ увидеть это - найти компромисс между разведкой и эксплуатацией (последний пункт Стефана): многорукий бандит является примером такой проблемы: вам приходится сталкиваться с двумя противоречивыми целями: получить информацию и выбрать лучшего бандита. , Одна из байесовских стратегий - выбрать каждого бандита случайным образом с вероятностью, что он лучший. Это не совсем классификация, но она имеет дело с вероятностями производства аналогичным образом.
Если классификатор является всего лишь одним кирпичиком в алгоритме принятия решений, то наилучший порог будет зависеть от конечной цели алгоритма. Он должен быть оценен и настроен с учетом целевой функции всего процесса.
источник
Возможно, есть некоторая ценность в рассмотрении того, как рассчитывается вероятность. В наши дни классификаторы используют вектор смещения, который умножается на матрицу (линейная алгебра). Пока в векторе есть ненулевые значения, вероятность (произведение вектора и матрицы) никогда не будет равна 0.
Это вызывает путаницу в реальном мире людей, которые не взяли линейную алгебру, я думаю. Их беспокоит тот факт, что существуют оценки вероятности для элементов, которые, по их мнению, должны иметь 0. Другими словами, они путают статистические данные с решения, основанного на этих данных. Как люди, мы могли бы сказать, что что-то с вероятностью 0,0002234 равно 0, в большинстве «практических» случаев использования. В обсуждениях высшей когнитивной науки, возможно, есть интересная дискуссия о том, почему вектор смещения делает это, или, скорее, это справедливо для когнитивных приложений.
источник
Там нет неправильного порога. Порог, который вы выбираете, зависит от вашей цели в вашем прогнозе или, скорее, от того, что вы предпочитаете, например, от точности до отзыва (попробуйте построить график и измерить связанный с ним AUC, чтобы сравнить различные модели классификации по вашему выбору).
Я даю вам этот пример точности по сравнению с отзывом, потому что в моем собственном проблемном случае, над которым я сейчас работаю, я выбираю свой порог в зависимости от минимальной точности (или положительного прогнозирующего значения PPV), которую я хочу получить при прогнозировании, но я не волнует негативы. В качестве такового я беру порог, который соответствует желаемой точности, как только я обучу свою модель. Точность - это мое ограничение, а Recall - производительность моей модели, когда я сравниваю ее с другими классификационными моделями.
источник