Я имею дело с проблемой обнаружения мошенничества (кредитной оценки). Таким образом, существует очень несбалансированная связь между мошенническими и не мошенническими наблюдениями.
http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html предоставляет большой обзор различных метрик классификации. Precision and Recall
или kappa
оба кажутся хорошим выбором:
Один из способов оправдать результаты таких классификаторов - это сравнить их с результатами базовых классификаторов и показать, что они действительно лучше, чем предсказания случайных случайностей.
Насколько я понимаю, здесь kappa
может быть немного лучший выбор, так как случайный шанс учитывается. Из каппы Коэна на простом английском языке я понимаю, что kappa
имеет дело с концепцией получения информации:
[...] Наблюдаемая Точность 80% намного менее впечатляет с Ожидаемой Точностью 75% по сравнению с Ожидаемой Точностью 50% [...]
Поэтому мои вопросы будут такими:
- Правильно ли считать,
kappa
что метрика классификации лучше подходит для этой проблемы? kappa
Предотвращает ли простое использование негативное влияние дисбаланса на алгоритм классификации? Требуется ли повторная (понижающая / повышающая) выборка или обучение на основе затрат (см. Http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )?
Ответы:
Да, ваши предположения о Каппе кажутся правильными. Каппа как единичные скалярные метрики, в основном, имеет преимущество перед другими единичными скалярными метриками, такими как точность, которая не будет отражать эффективность прогнозирования для более мелких классов (в тени от производительности любого гораздо большего класса). Как вы указали, Каппа решает эту проблему более элегантно.
Использование показателя типа Kappa для измерения вашей производительности не обязательно повысит соответствие вашей модели данным. Вы можете измерить производительность любой модели, используя ряд метрик, но то, как модель соответствует данным, определяется с помощью других параметров (например, гиперпараметров). Таким образом, вы можете использовать, например, Kappa для выбора наиболее подходящего типа модели и гиперпараметризации среди множества вариантов решения для вашей очень несбалансированной проблемы - но простое вычисление самой Kappa не изменит то, как ваша модель соответствует вашим несбалансированным данным.
Для различных показателей: помимо Каппа и точности / отзыва, также обратите внимание на кривые TPR / TNR с истинным положительным и истинным отрицательным значением, а также на кривые ROC и площадь под кривой AUC. Какие из них полезны для вашей проблемы, в основном зависит от деталей вашей цели. Например, различная информация, отраженная в TPR / TNR и точности / отзыве: ваша цель состоит в том, чтобы высокая доля мошенничества фактически выявлялась как таковая, а высокая доля законных транзакций выявлялась как таковая, и / или минимизировалась доля ложных тревог (которые вы, естественно, получите "в массовом порядке" с такими проблемами) во всех тревогах?
Для повышения / понижения выборки: я думаю, что нет никакого канонического ответа на вопрос «если таковые требуются». Они являются еще одним способом адаптации вашей проблемы. Технически: да, вы могли бы использовать их, но используйте их осторожно, особенно с повышением частоты дискретизации (вы можете в конечном итоге создать нереалистичные сэмплы, не заметив этого) - и помните, что изменение частоты сэмплов обоих классов на что-то нереалистичное "в дикой природе" "может оказать негативное влияние на эффективность прогнозирования. По крайней мере, последний, длительный тестовый набор должен снова отражать реальную частоту образцов. Итог: я видел оба случая, когда выполнение и не повышение или понижение частоты дискретизации приводили к лучшим конечным результатам, так что это то, что вам может понадобиться попробовать (но не манипулируйте вашими тестовыми наборами)! ,
источник
Помимо AUC и каппы Кохонена, которые уже обсуждались в других ответах, я также хотел бы добавить несколько метрик, которые я нашел полезными для несбалансированных данных. Они оба связаны с точностью и отзывом . Потому что, усредняя их, вы получаете метрическое взвешивание s и оба типа ошибок ( и ):Tп Fп FN
Примечание. Для несбалансированных наборов данных лучше всего, чтобы ваши метрики были усреднены по макросам .
источник
Для несбалансированных наборов данных показатель средней точности иногда является лучшей альтернативой AUROC. Оценка AP - это область под кривой точного отзыва.
Вот обсуждение с некоторым кодом (Python)
Вот бумага .
Также см. Кривые точности-отзыва-усиления Питера Флаха , а также обсуждение недостатков кривых AP.
источник