Я видел эту статью в «Экономисте» о, казалось бы, разрушительной работе [1], ставящей под сомнение «что-то вроде 40 000 опубликованных [МРТ] исследований». Ошибка, говорят они, из-за «ошибочных статистических предположений». Я прочитал статью и вижу, что отчасти это проблема с множественными исправлениями сравнения, но я не эксперт по МРТ, и мне трудно следить за этим.
О каких ошибочных предположениях говорят авторы ? Почему эти предположения сделаны? Как обходить эти предположения?
Оборотная сторона подсчета конвертов гласит, что 40 000 документов МРТ - это финансирование на сумму более миллиарда долларов (зарплата аспирантов, эксплуатационные расходы и т. Д.).
[1] Эклунд и др., Кластерный сбой: почему выводы по фМРТ для пространственного экстента завышены ложноположительных показателей, PNAS 2016
Ответы:
На цифре 40000
Новости действительно сенсационные, но газета действительно хорошо обоснована. Дискуссии в моей лаборатории бушевали целыми днями, в общем, действительно необходимая критика, которая заставляет исследователей анализировать свою работу. Я рекомендую прочитать следующий комментарий Томаса Николса , одного из авторов статьи «Отказ кластера: почему из-за выводов фМРТ для пространственного экстента завышены ложноположительные показатели» (извините за длинную цитату).
Он также включает эту таблицу в конце:
По сути, SPM (статистическое параметрическое картирование, набор инструментов для Matlab) является наиболее широко используемым инструментом для исследований нейробиологии ФМРТ. Если вы посмотрите на документ, который вы увидите, используя CDT с P = 0,001 (стандарт) для кластеров в SPM, то вы получите почти ожидаемый уровень ошибок по семейным показателям.
Авторы даже наполнили список ошибок из-за формулировки статьи:
На так называемую ошибку
В некоторых новостях также упоминается ошибка как причина недействительности исследований. Действительно, один из инструментов AFNI неправильно корректировал выводы , и это было решено после того, как препринт был опубликован в arXiv .
Статистический вывод, используемый при функциональном нейровизуализации
Функциональное нейровизуализация включает в себя множество методов, которые направлены на измерение активности нейронов в головном мозге (например, МРТ, ЭЭГ, МЭГ, NIRS, PET и SPECT). Они основаны на разных контрастных механизмах. МРТ основана на контрасте, зависящем от уровня кислорода в крови (BOLD). В основанном на задаче МРТ, при наличии стимула, нейроны в головном мозге, ответственные за прием этой стимуляции, начинают потреблять энергию, и это вызывает гемодинамический ответ, изменяющий магнитный резонансный сигнал ( ) вблизи набранных микро -vascularization.≈5%
Используя обобщенную линейную модель (GLM), вы определяете, какие временные ряды воксельных сигналов коррелируют с дизайном парадигмы вашего эксперимента (обычно булевы временные ряды, свернутые с канонической функцией гемодинамического отклика, но существуют вариации).
Таким образом, этот GLM дал вам, насколько каждый временной ряд вокселей напоминает задачу. Теперь, скажем, у вас есть две группы людей: пациенты и контроли обычно. Сравнение показателей GLM между группами можно использовать, чтобы показать, как состояние групп модулирует паттерн «активации» их мозга.
Воксельное сравнение между группами выполнимо, но из-за функции разброса точек, присущей оборудованию, и этапа предварительной обработки сглаживания не стоит ожидать, что вокселы будут по отдельности переносить всю информацию. Разница в вокселях между группами должна быть фактически распределена по соседним вокселям.
Таким образом, проводится кластерное сравнение , то есть рассматриваются только различия между группами, которые образуют кластеры. Этот порог степени кластера является наиболее популярным методом коррекции множественного сравнения в исследованиях МРТ. Проблема лежит здесь.
В SPM по крайней мере вы должны установить номинальную скорость FWE, а также порог определения кластера (CDT). По сути, SPM обнаруживает, что воксели тесно связаны с задачей, и после порогового значения с помощью CDT соседние из них объединяются в кластеры. Размеры этих кластеров сравниваются с ожидаемой протяженностью кластера из теории случайных полей (RFT) с учетом набора FWER [ 1 ].
Авторы показали в [ 1 ], что ожидаемые размеры кластеров от RFT действительно малы по сравнению с порогами протяженности кластеров, полученными в результате тестирования случайной перестановки (RPT).
В их самой последней работе данные о состоянии покоя (еще один способ фМРТ, когда участникам предписывается не думать ни о чем конкретном) использовались так, как если бы люди выполняли задачу во время получения изображения, а сравнение групп проводилось по вокселям и кластерам. -wise. Наблюдаемая ложноположительная ошибка (т. Е. Когда вы наблюдаете различия в отклике сигнала на виртуальное задание между группами) должна быть разумно ниже, чем ожидаемая скорость FWE, установленная на . Повторяя этот анализ миллионы раз в группах случайной выборки с различными парадигмами, было показано, что большинство наблюдаемых значений FWE выше, чем приемлемые.α=0.05
@amoeba поднял эти два очень важных вопроса в комментариях:
(1) Хороший вопрос. Я на самом деле пересмотрел свои ссылки, давайте посмотрим, смогу ли я прояснить ситуацию сейчас. Кластерный вывод основан на экстентах кластеров, которые формируются после применения первичного порога ( CDT, который является произвольным ). Во вторичном анализе применяется порог количества вокселей на кластер . Этот порог основан на ожидаемом распределении нулевых экстентов кластера, которое может быть оценено из теории (например, RFT), и устанавливает номинальный FWER. Хорошая ссылка - [ 2 ].
(2) Спасибо за эту ссылку, не видел его раньше. Фландин и Фристон утверждают, что Eklund et al. подтвердила вывод RFT, потому что они в основном показали, что при соблюдении его предположений (относительно CDT и сглаживания) результаты непредвзяты. В этом свете новые результаты показывают, что различные методы в литературе имеют тенденцию отклонять выводы, поскольку они разрушают допущения RFT.
На множественные сравнения
Также хорошо известно, что многие исследования в области нейробиологии не подходят для множественных сравнений, по оценкам от 10% до 40% литературы. Но это не учитывается этим требованием, все знают, что эти бумаги имеют хрупкую ценность и, возможно, огромные ложные положительные показатели.
На FWER свыше 70%
Авторы также сообщили о процедуре, при которой FWER превышает 70%. Эта «народная» процедура заключается в применении CDT для сохранения только очень значимых кластеров, а затем в применении другого произвольно выбранного порога экстента кластера (по количеству вокселей). Это, иногда называемое «установление вывода», имеет слабую статистическую базу и, возможно, дает наименее достоверные результаты.
Предыдущие отчеты
Те же авторы уже сообщали о проблемах с валидностью СЗМ [ 1 ] в отдельных анализах. Есть и другие цитируемые работы в этой области.
Любопытно, что несколько отчетов о групповом и индивидуальном анализе на основе смоделированных данных пришли к выводу, что порог RFT был, по сути, консервативным. Благодаря последним достижениям в области вычислительной мощности, хотя RPT может быть гораздо проще выполнен на реальных данных, что свидетельствует о значительных расхождениях с RFT.
ОБНОВЛЕНИЕ: 18 октября 2017
Комментарий к «отказу кластера» появился в июне прошлого года [ 3 ]. Там Мюллер и соавт. утверждают, что результаты, представленные в работе Eklund et al., могут быть связаны с конкретной техникой предварительной обработки изображений, использованной в их исследовании. По сути, они передискретировали функциональные изображения до более высокого разрешения перед сглаживанием (хотя, вероятно, это делают не все исследователи, это обычная процедура в большинстве программ анализа МРТ). Они также отмечают, что Фландин и Фристон этого не сделали. На самом деле я видел выступление Эклунда в том же месяце на ежегодном собрании Организации по картированию человеческого мозга (OHBM) в Ванкувере, но я не помню никаких комментариев по этому вопросу, но он кажется критически важным для вопроса.
[1] Эклунд А., Андерссон М., Джозефсон С., Йоханнессон М. и Кнутссон Х. (2012). Дает ли параметрический анализ МРТ с SPM достоверные результаты? Эмпирическое исследование 1484 наборов остальных данных. NeuroImage, 61 (3), 565-578.
[2] Woo, CW, Krishnan, A. & Wager, TD (2014). Пороговое значение на основе кластерного экстента в анализе МРТ: подводные камни и рекомендации. Neuroimage, 91, 412-419.
[3] Мюллер К., Лепсиен Дж., Меллер Х. Э. и Ломанн Г. (2017). Комментарий: отказ кластера: почему выводы фМРТ для пространственной протяженности завышены ложноположительные показатели. Границы человеческой нейронауки, 11.
источник