Статистика.com опубликовала неправильный ответ?

28

Статистика.com опубликовала проблему недели: уровень мошенничества со страхованием жилья составляет 10% (одна из десяти претензий является мошеннической). Консультант предложил систему машинного обучения, чтобы рассмотреть претензии и классифицировать их как мошенничество или отсутствие мошенничества. Система на 90% эффективна в обнаружении мошеннических претензий, но только на 80% эффективна для правильной классификации претензий, не связанных с мошенничеством (ошибочно помечает каждого пятого как «мошенничество»). Если система классифицирует претензию как мошенническую, какова вероятность того, что она действительно является мошеннической?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

Я и мой коллега независимо друг от друга придумали один и тот же ответ, и он не соответствует опубликованному решению.

Наше решение:

(0,9 * 0,1) / ((. 9 * .1) + (. 2 * 0,9)) = 1/3

Их решение:

Это проблема условной вероятности. (Это также проблема Байеса, но применение формулы в Байесовском правиле только помогает скрыть происходящее.) Рассмотрим 100 утверждений. 10 будет мошенническим, и система будет правильно помечать 9 из них как «мошенничество». 90 заявлений будут в порядке, но система неправильно классифицирует 72 (80%) как «мошенничество». Таким образом, всего 81 заявка была помечена как мошеннические, но только 9 из них, 11%, на самом деле являются мошенническими.

Кто был прав

ChrisG
источник
4
похоже, что они исправили решение на своем веб-сайте, чтобы оно соответствовало тому, что вы рассчитали
нет
2
@ Нет, спокойно поправил ответ. подлый
Аксакал
Общая информация: в поведенческом процессе принятия решения эту проблему часто называют «проблемой с маммографией», поскольку ее обычное представление о вероятности того, что у пациента рак будет получен с положительной маммографией.
Кодиолог
«Хорошая новость заключается в том, что наша система классифицирует 90% мошенничества как мошенничество. Плохая новость заключается в том, что 80% не мошенничества классифицируется как мошенничество». Обратите внимание, что 11%, которые они рассчитывают, лишь немного выше, чем базовая ставка 10%. Модель машинного обучения, где уровень мошенничества во отмеченных случаях составляет всего 10% от базовой, довольно ужасен.
накопление
Это известно как ложно-позитивный парадокс
BlueRaja - Дэнни Пфлюгофт

Ответы:

41

Я считаю, что вы и ваш коллега правы. Статистика.com имеет правильное мышление, но допускает простую ошибку. Мы ожидаем, что из 90 претензий «ОК» 20% из них будут ошибочно классифицированы как мошенничество, а не 80%. 20% из 90 - это 18, что приводит к 9 правильно идентифицированным претензиям и 18 некорректным претензиям с соотношением 1/3, что в точности соответствует правилу Байеса.

Джеймс Отто
источник
11

Ты прав. Решение, размещенное на веб-сайте, основано на неправильном прочтении проблемы в том, что 80% не мошеннических требований классифицируются как мошеннические, а не заданные 20%.

Дилип Сарватэ
источник