Статистика.com опубликовала проблему недели: уровень мошенничества со страхованием жилья составляет 10% (одна из десяти претензий является мошеннической). Консультант предложил систему машинного обучения, чтобы рассмотреть претензии и классифицировать их как мошенничество или отсутствие мошенничества. Система на 90% эффективна в обнаружении мошеннических претензий, но только на 80% эффективна для правильной классификации претензий, не связанных с мошенничеством (ошибочно помечает каждого пятого как «мошенничество»). Если система классифицирует претензию как мошенническую, какова вероятность того, что она действительно является мошеннической?
https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true
Я и мой коллега независимо друг от друга придумали один и тот же ответ, и он не соответствует опубликованному решению.
Наше решение:
(0,9 * 0,1) / ((. 9 * .1) + (. 2 * 0,9)) = 1/3
Их решение:
Это проблема условной вероятности. (Это также проблема Байеса, но применение формулы в Байесовском правиле только помогает скрыть происходящее.) Рассмотрим 100 утверждений. 10 будет мошенническим, и система будет правильно помечать 9 из них как «мошенничество». 90 заявлений будут в порядке, но система неправильно классифицирует 72 (80%) как «мошенничество». Таким образом, всего 81 заявка была помечена как мошеннические, но только 9 из них, 11%, на самом деле являются мошенническими.
Кто был прав
источник
Ответы:
Я считаю, что вы и ваш коллега правы. Статистика.com имеет правильное мышление, но допускает простую ошибку. Мы ожидаем, что из 90 претензий «ОК» 20% из них будут ошибочно классифицированы как мошенничество, а не 80%. 20% из 90 - это 18, что приводит к 9 правильно идентифицированным претензиям и 18 некорректным претензиям с соотношением 1/3, что в точности соответствует правилу Байеса.
источник
Ты прав. Решение, размещенное на веб-сайте, основано на неправильном прочтении проблемы в том, что 80% не мошеннических требований классифицируются как мошеннические, а не заданные 20%.
источник