Когда p-значения обманчивы?

14

Каковы условия данных, на которые мы должны обратить внимание, когда p-значения не могут быть лучшим способом определения статистической значимости? Существуют ли конкретные типы проблем, которые попадают в эту категорию?

user179
источник
2
Снаркий ответ: почти всегда. Существует огромный стимул создавать ошибки типа 1 (то есть «ложные тревоги»), когда аналитики проверяют данные, поэтому почти все p-значения, с которыми вы столкнетесь, «слишком» малы.
statsRus
7
Просто добавлю это, но разве такой вопрос лучше не ставить на Cross Validated ?
buruzaemon
1
@buruzaemon: Может быть. Я выполнил поиск, это самое близкое совпадение: stats.stackexchange.com/questions/67320/… Кажется, есть не более чем несколько вопросов, которые касаются этого.
Алекс я

Ответы:

9

Вы спрашиваете об отбраковке данных , что и происходит при тестировании очень большого числа гипотез с набором данных или при проверке гипотез с набором данных, предложенных теми же данными.

В частности, проверьте множественные гипотезы опасности и проверки гипотезы, предложенные данными .

Решение состоит в том, чтобы использовать какую-то коррекцию для коэффициента ложного обнаружения или частоты ошибок Familywise , такую ​​как метод Шеффе или (очень старая школа) коррекция Бонферрони .

В несколько меньшей степени это может помочь отфильтровать ваши открытия по доверительному интервалу для отношения шансов (ИЛИ) для каждого статистического результата. Если доверительный интервал 99% для отношения шансов равен 10-12, то ИЛИ <= 1 с некоторой чрезвычайно малой вероятностью, особенно если размер выборки также большой. Если вы обнаружите что-то подобное, это, вероятно, будет сильным эффектом, даже если он будет проверен миллионами гипотез.

Алекс я
источник
1
Хотя Bonferroni определенно является старой школой, он все еще довольно популярен. С этим связан метод, называемый исправлением Шидака ( en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction ). Я говорю об этом, потому что в большой рекламной системе таргетинга, над которой я работал, мы смогли реализовать этот подход как UDF в Hive. Однако это работает лучше только тогда, когда у вас есть независимость между тестами. Если нет, то вам придется прибегнуть к Бонферрони или другому методу.
Крис Симокат
5

Вы не должны рассматривать значение p вне контекста.

Одним из довольно простых моментов (как показано на примере xkcd ) является то, что вам необходимо учитывать, сколько тестов вы фактически делаете. Очевидно, вы не должны быть шокированы, увидев p <0,05 для одного из 20 тестов, даже если нулевая гипотеза верна каждый раз.

Более тонкий пример этого встречается в физике высоких энергий и известен как эффект поиска в другом месте . Чем больше пространство параметров, которое вы ищете для сигнала, который может представлять новую частицу, тем больше вероятность того, что вы увидите видимый сигнал, который действительно вызван случайными колебаниями.

Тим Гудман
источник
2

Одна вещь, которую вы должны знать, это размер выборки, который вы используете. Очень большие выборки, такие как экономисты, использующие данные переписи, приведут к дефлированным значениям p. Эта статья «Слишком большая, чтобы обанкротиться: большие выборки и проблема p-значения» охватывает некоторые из проблем.

Дэн С
источник