Почему большинство опубликованных работ по медицинской визуализации пытаются уменьшить количество ложных срабатываний?

20

При обработке медицинских изображений большинство опубликованных работ пытаются снизить частоту ложных срабатываний (FPR), тогда как в действительности ложные отрицания более опасны, чем ложные срабатывания. Что за этим стоит?

Хунар А. Ахмед
источник
1
С точки зрения en.wikipedia.org/wiki/Primum_non_nocere ложные срабатывания могут считаться более опасными ошибками, даже до учета разницы в абсолютных числах, на которую правильно указывает Дракон.
JPA

Ответы:

29

TL; DR: заболевания редки, поэтому абсолютное количество ложных срабатываний намного больше, чем абсолютных.

Давайте предположим, что наша система имеет одинаковый уровень ложноположительных и ложноотрицательных результатов в 1% (довольно хорошо!), И что в этом году мы обнаруживаем наличие новых видов рака: 439,2 на 100 000 человек, или 0,5% населения. [ источник ]

  • Без рака, без выявления: 99,5% х 99% = 98,5% (98,505%)
  • Нет рака, обнаружение: 99,5% х 1% = 1,0% (0,995%)
  • Рак, обнаружение: 0,5% х 99% = 0,5% (0,495%)
  • Рак, без выявления: 0,5% х 1% = 0,005%

Таким образом, мы видим, что у нас есть проблема: для каждого, у кого есть рак, два человека, у которых не было рака, заканчивают инвазивной хирургией, химиотерапией или радиотерапией.

На каждого человека, у которого не обнаружен настоящий рак, двести человек получают активно вредное лечение, в котором они не нуждаются и не могут себе это позволить.

Дракон
источник
1
Для многих скрининговых применений заболеваемость (нет новых диагностированных заболеваний на 100000 населения) фактически даже ниже: 0,5% - это общая заболеваемость раком, в то время как программы скрининга нацелены на конкретные виды рака.
cbeleites поддерживает Монику
6
@cbeleites, чтобы привести конкретный пример, аденокарцинома поджелудочной железы почти всегда приводит к летальному исходу, поскольку протекает бессимптомно, пока не достигнет поздней стадии. Если бы вы применили скрининг-тест с показателем 1% ложных положительных результатов / 1% ложных отрицательных результатов ко всему населению Соединенных Штатов, вы бы выявили около трех миллионов случаев, из которых только 46 000 на самом деле имеют рак, что дает положительный результат. Прогностическая ценность всего 1,5%.
Марк
2
Для медицинской визуализации (например, МРТ) проблема может усугубляться тем фактом, что одно изображение состоит из множества «вокселей», активация каждого из которых рассматривается как гипотеза - см., Например, Дзен и Искусство множественных сравнений. - Я думаю, что это может быть то, на что ссылается ФП
Steeldriver
16

Ты знаешь историю о мальчике, который плакал волком, верно?

Это та же идея. После того, как какой-то классификатор выдает ложные тревоги (крики волка) столько раз, медицинский персонал отключит его или проигнорирует.

"О, это снова! НОП!"

По крайней мере, с группой биоинженерии, с которой я работал, акцент делается на сокращении FPR именно потому, что цель состоит в том, чтобы создать инструмент, который будет предупреждать врачей о потенциальной патологии, и они сказали нам, что будут игнорировать продукт, который плачет волк перебор.

Для продукта, который помогает врачам, мы должны обратиться к их психологии, несмотря на законный аргумент, что пропустить волка на ферме хуже, чем плачущего волка.

Изменить : Уменьшение ложных срабатываний также имеет законный аргумент. Если ваш компьютер продолжает плакать, как волк, получая время от времени истинный позитив (и улавливая большинство истинных позитивов), это фактически говорит о том, что кто-то может заболеть. Они в больнице. Врач знает, что пациент может быть болен.

Дейв
источник
7

Резюме: вопрос, вероятно, * заключается не в том, хуже ли один ложный отрицательный результат, чем один ложный положительный, скорее всего, это * больше похоже на то, приемлемы ли 500 ложных положительных результатов для получения одного ложного отрицательного результата.

* зависит от приложения


Позвольте мне немного расширить ответ @ Dragon:

  • Скрининг означает, что мы ищем болезни среди, казалось бы, здоровых людей. Как объяснил @Dragon, для них нам нужен чрезвычайно низкий FPR (или высокая чувствительность), в противном случае мы получим гораздо больше ложных срабатываний, чем истинных положительных. Т.е. положительная прогностическая ценность (# действительно больная среди всех диагностированных положительных) была бы неприемлемо низкой.

  • Чувствительность (TPR) и специфичность (TNR) легко измерить для диагностической системы: возьмите ряд действительно (не) заболевших случаев и измерьте долю правильно обнаруженных случаев.

  • OTOH, как с точки зрения врачей, так и пациентов, прогнозные значения более точны . Они «обратны» Чувствительности и специфичности и говорят вам среди всех положительных (отрицательных) предсказаний, какая доля верна. Другими словами, после теста сказали «болезнь», какова вероятность того, что у пациента действительно есть заболевание.

  • Как показала @Dragon, заболеваемость (или распространенность, в зависимости от того, о каком тесте мы говорим) играет здесь решающую роль. Заболеваемость низка во всех видах скрининга / ранней диагностики рака.
    Чтобы проиллюстрировать это, скрининг рака яичников у женщин в постменопаузе имеет распространенность 0,04% в общей популяции и 0,5% у женщин с высоким риском с семейным анамнезом и / или известными мутациями генов-супрессоров опухолей BRCA1 и 2 [Buchen, L. Рак: отсутствует отметка. Природа, 2011, 471, 428-432]

  • Таким образом, вопрос, как правило, заключается не в том, хуже ли один ложный отрицательный результат, чем один ложный положительный, а даже в том, что специфичность 99% (1% FPR) и чувствительность 95% (цифры взяты из статьи, указанной выше) означают примерно 500 ложных срабатываний для каждого ложного отрицания. ,

  • Как примечание стороны, также имейте в виду, что ранняя диагностика рака сама по себе не волшебное лекарство от рака. Например, для маммографии, проводящей скрининг на рак молочной железы, только 3–13% истинно положительных пациентов получают пользу от скрининга .
    Таким образом, мы также должны следить за количеством ложных срабатываний для каждого получающего пользу пациента. Например, для маммографии, вместе с этими цифрами , это приблизительное предположение, что мы имеем где-то в диапазоне 400 - 1800 ложных срабатываний в расчете на истинно положительный результат (группа 39 - 49 лет).

  • С сотнями ложноположительных результатов на ложноотрицательный результат (а также, возможно, сотни или даже тысячи ложноположительных результатов на пациента, получающего пользу от скрининга), ситуация не так ясна, как «один пропущенный рак хуже, чем один ложноположительный диагноз рака»: ложноположительные результаты оказывают влияние, начиная от психологических и психосоматических (опасаясь, что у вас рак сам по себе вреден для здоровья) до физических рисков повторных диагнозов, таких как биопсия (это небольшая операция, и поэтому она имеет свою собственную риски).
    Даже если влияние одного ложного срабатывания невелико, соответствующие риски могут существенно возрасти, если учитывать сотни ложных срабатываний.

    Предлагаемое прочтение: Герд Гигеренцер: Риск-смекалка: как принимать правильные решения (2014).

  • Тем не менее, то, что PPV и NPV необходимы, чтобы сделать диагностический тест полезным, сильно зависит от приложения.
    Как было объяснено, при скрининге на раннее выявление рака основное внимание обычно уделяется PPV, т. Е. Чтобы вы не наносили слишком большого вреда ложными отрицаниями: обнаружение значительной доли (даже если не всех) ранних больных раком уже является улучшением по сравнению с статус-кво без проверки.
    OTOH, тест на ВИЧ при донорстве крови фокусируется в первую очередь на NPV (то есть на том, что кровь не содержит ВИЧ). Тем не менее, на 2-м (и 3-м) шаге ложноположительные результаты затем уменьшаются путем применения дополнительных тестов, прежде чем беспокоить людей с (ложно) положительными результатами теста на ВИЧ.

  • И последнее, но не менее важное: существуют также медицинские приложения для тестирования, в которых частота или распространенность не столь экстремальны, как обычно при скрининге групп населения с не особо высоким риском, например, при некоторых дифференциальных диагнозах.

cbeleites поддерживает Монику
источник
1
Это немного плотно; можно использовать переформатирование, чтобы было легче читать. Похоже, хороший ответ, но трудно разобраться без большого количества времени.
Боб
3

С личной точки зрения, а не опыт работы с данными, ложный положительный эффект в большей степени влияет на качество жизни пациента, чем ложный отрицательный (по крайней мере, в большинстве применений обработки медицинских изображений. Мы не говорим здесь о результатах лабораторных исследований) ,

Давайте посмотрим на конкретный пример: скрининг опухолей .

Ложноотрицательный результат означает, что опухоль на ранней стадии имеет больше времени для роста и развития в злокачественную опухоль. В целом этот процесс занимает много времени, и каждый последующий скрининг имеет больше шансов обнаружить его, но реально страдает долгосрочное здоровье пациента.

Кроме того, в диагностике всегда участвует человек. Обработка медицинских изображений на современном технологическом этапе призвана помочь медицинскому персоналу, а не заменить его . Часто подразумевается, что повреждения или изменения в ткани настолько тонкие, что человек может их не заметить. Нет никаких шансов, что врач пропустит опухоль на поздней стадии. Для этого им не нужна обработка изображений.

С точки зрения медицинских процедур, если опухоль не становится неработоспособной до следующего скрининга, нет большой разницы между удалением опухоли на ранней стадии или опухоли, которая имела немного больше времени для роста. Количество удаленной ткани больше, но вид операции часто одинаков. (Это предполагает, что пациент регулярно проводит проверки здоровья.)

Ложный позитив имеет много последствий, которые не все напрямую связаны с недугом:

  • Дополнительные процедуры. После того, как процесс визуализации дает положительный результат, проводится больше тестов, для которых извлекается кровь или ткань (биопсия). Объективно говоря, тело пациента повреждено, чтобы иметь возможность проверить результат визуализации.
  • Страх. Лабораторные тесты требуют времени. Человек, подверженный заболеванию, часто переживает несколько дней, а иногда и недель, из-за неопределенности погоды, или же поражение фактически не рак. Многие люди, которые испытали такой ложный позитив, называют это событие «травмирующим» и долго страдают от беспокойства, связанного со здоровьем.
  • Время вложения. Если для проверки результатов визуализации с помощью лабораторных тестов или аналогичных процедур требуется несколько обследований, пациент и врачи должны уделить им время. Даже если для этого требуется только один тест, в нем участвуют несколько человек, включая медсестер, врачей и лаборантов. В то время, когда врачи хронически перегружены работой, этого следует избегать, если это возможно.
  • Ненужные лекарства. В худшем случае пациент лечится от недуга, которого у него даже нет, а его тело подвергается ненужному напряжению из-за побочных эффектов лекарств.
  • Потеря эффекта. Медицинский персонал будет игнорировать истинно положительные результаты, если процедура дает слишком много ложных срабатываний (как объяснено в других ответах).

Эта оценка риск-польза показывает, что ложноотрицательный включает меньший риск для пациента, чем ложно-положительный. Поэтому приоритет снижения ложных срабатываний, как правило, выше.

поросшие вязы
источник
1

Время клинициста драгоценно

В области медицины у клиницистов часто есть широкий спектр болезней, чтобы попытаться обнаружить и диагностировать, и это трудоемкий процесс. Инструмент, который дает ложное срабатывание (даже если с низкой скоростью) менее полезен, потому что невозможно доверять этому диагнозу, то есть каждый раз, когда он ставит этот диагноз, его необходимо проверять. Думайте об этом как о WebMD программного обеспечения - все является признаком рака!

Инструмент, который представляет ложные отрицания, но всегда представляет истинные положительные результаты, гораздо более полезен, поскольку врачу не нужно тратить время на повторную проверку или повторное определение диагноза. Если это помечает кого-то как больного с определенным диагнозом, работа сделана. Если этого не произойдет, люди, которые не отмечены как больные, все равно получат дополнительные тесты.

Лучше иметь инструмент, который может точно идентифицировать даже одну черту болезни, чем инструмент, который, возможно, обманывает множество черт.

SSight3
источник
0

Частота ложных срабатываний (FPR), также известная как частота ложных срабатываний (FAR); Большой процент ложных срабатываний может привести к снижению производительности системы обнаружения медицинских изображений. Ложноположительный результат - это когда вы получаете положительный результат теста, когда вы должны были получить отрицательный результат. Например, тест на беременность положительный, когда на самом деле человек не беременен.

EricAtHaufe
источник
4
Это не ответ на вопрос. ОП не спрашивает, что означает ложный положительный результат, но почему он считается более важным, чем ложный отрицательный.
Луэллин
0

По всей вероятности, все в этой ветке уже знают, что это проблема в основе байесовского анализа. Исключительно в интересах будущих паломников, которые могут думать о ложных срабатываниях как о чем-то, что является исключительно проблемой в радиологии, я надеюсь, что этот комментарий предоставит немного более общую перспективу.

Ричард Кареага
источник