Я работаю с некоторым исследовательским пространственным анализом в R с использованием пакета spdep.
Я наткнулся на вариант настройки p- значений локальных показателей пространственной ассоциации (LISA), рассчитанных с помощью localmoran
функции. Согласно документам он нацелен на:
... корректировка значения вероятности для нескольких тестов.
Далее в документации p.adjustSP
я читал, что доступны следующие варианты:
Методы корректировки включают поправку Бонферрони («bonferroni»), в которой значения p умножаются на количество сравнений. Четыре менее консервативных исправления также включены Holm (1979) («holm»), Hochberg (1988) («hochberg»), Hommel (1988) («hommel») и Benjamini & Hochberg (1995). ('"fdr"') соответственно. Опция сквозного доступа («none») также включена.
Первые четыре метода разработаны, чтобы дать сильный контроль над частотой ошибок по семейным обстоятельствам. Кажется, нет причин использовать немодифицированную поправку Бонферрони, потому что в ней преобладает метод Холма, который также действителен при произвольных допущениях.
Методы Хохберга и Хоммеля действительны, когда тесты гипотез независимы или когда они неотрицательно связаны (Sarkar, 1998; Sarkar and Chang, 1997). Метод Хоммеля является более мощным, чем метод Хохберга, но разница обычно невелика, и р-значения Хохберга вычисляются быстрее.
Методы «BH» (он же «fdr») и «BY» Бенджамини, Хохберга и Екутиэли контролируют уровень ложных открытий, ожидаемую долю ложных открытий среди отвергнутых гипотез. Частота ложных обнаружений является менее строгим условием, чем частота семейных ошибок, поэтому эти методы более эффективны, чем другие.
Пара вопросов, которые появились:
- Проще говоря - какова цель этой корректировки?
- Нужно ли использовать такие исправления?
- Если да - как выбрать из доступных вариантов?
Ответы:
Вкратце, проблема, с которой вы сталкиваетесь, называется проверкой нескольких гипотез . Возникает, когда вы тестируете, как следует из названия, множество гипотез одновременно.
Допустим, у вас есть заданная вероятность ошибочного отклонения нулевой гипотезы (ложноположительной) для теста, скажем, 5%. По мере увеличения количества наборов данных, которые вы тестируете (в данном случае, каждого из наборов, к которым вы применяете локальную статистику Морана), вероятность наблюдения в любом наборе данных ложных срабатываний будет увеличиваться независимо от того факта, что вероятность наблюдения ложный положительный результат для одного набора данных - то же самое.
Есть много возможных «исправлений», которые вы нашли, чтобы исправить эту проблему; если вам действительно нужна локальная статистика, вы не можете ее избежать. В противном случае вы можете использовать глобальную статистику в качестве единой гипотезы.
источник