В последнее время я много читал о различиях между методом проверки гипотез Фишера и школой мысли Неймана-Пирсона.
Мой вопрос, игнорируя философские возражения на мгновение; когда мы должны использовать подход статистического моделирования Фишера, а когда следует использовать метод уровней значимости Неймана-Пирсона и так далее? Есть ли практический способ решить, какую точку зрения поддержать в той или иной конкретной практической проблеме?
Ответы:
Фишер считал, что значение р можно интерпретировать как непрерывную меру доказательств против нулевой гипотезы . Не существует определенного фиксированного значения, при котором результаты становятся «значительными». Я обычно пытаюсь донести это до людей, чтобы указать, что для всех намерений и целей p = .049 и p = .051 составляют идентичное количество доказательств против нулевой гипотезы (см. Здесь ответ Хенрика ) ,
С другой стороны, Нейман и Пирсон решили, что вы можете использовать значение p как часть формализованного процесса принятия решений . В конце вашего исследования вы должны либо отклонить нулевую гипотезу, либо не принять отрицательную гипотезу. Кроме того, нулевая гипотеза может быть верной или не верной. Таким образом, существует четыре теоретических возможности (хотя в любой конкретной ситуации их всего две): вы можете принять правильное решение (не отклонить истинную - или отвергнуть ложную - нулевую гипотезу), или вы можете сделать тип I или ошибка типа II (отклоняя истинное нулевое значение или не отклоняя ложную нулевую гипотезу соответственно). (Обратите внимание, что значение p не совпадает с частотой ошибок типа I, о которой я расскажу здесь.) Р-значение позволяет процессу принятия решения о том, следует ли отклонить нулевую гипотезу, чтобы она была формализована. В рамках Неймана-Пирсона процесс будет работать следующим образом: существует нулевая гипотеза, что люди будут верить по умолчанию при отсутствии достаточных доказательств обратного, и альтернативная гипотеза, которая, по вашему мнению, может быть верной. Есть некоторые долгосрочные ошибки, с которыми вы будете готовы жить (обратите внимание, что нет причин, по которым они должны составлять 5% и 20%). Учитывая все это, вы разрабатываете свое исследование таким образом, чтобы различать эти две гипотезы, в то же время сохраняя, самое большее, эти уровни ошибок, проводя анализ мощности и проводя соответствующее исследование. (Как правило, это означает наличие достаточных данных.) После завершения вашего исследования вы сравниваете свое значение p сα и отвергнуть нулевую гипотезу, если ; если это не так, вы не сможете отвергнуть нулевую гипотезу. В любом случае, ваше обучение завершено, и вы приняли решение. р < а
Подходы Фишера и Неймана-Пирсона не совпадают . Основное утверждение концепции Неймана-Пирсона заключается в том, что в конце вашего исследования вы должны принять решение и уйти. Предположительно, исследователь однажды обратился к Фишеру с «незначительными» результатами, спросив его, что он должен делать, и Фишер сказал: «Иди и получи больше данных».
Лично я нахожу элегантную логику подхода Неймана-Пирсона очень привлекательной. Но я не думаю, что это всегда уместно. На мой взгляд, по крайней мере два условия должны быть выполнены, прежде чем следует рассмотреть структуру Неймана-Пирсона:
Когда эти условия не выполняются, значение p все еще можно интерпретировать в соответствии с идеями Фишера. Более того, мне кажется вероятным, что большую часть времени эти условия не выполняются. Вот несколько простых примеров, в которых запускаются тесты, но вышеуказанные условия не выполняются:
источник
Практичность в глазах смотрящего, но;
Проверка значимости Фишера может быть интерпретирована как способ решить, предполагают ли данные какой-либо интересный «сигнал». Мы либо отвергаем нулевую гипотезу (которая может быть ошибкой типа I), либо ничего не говорим. Например, во многих современных приложениях «омика» эта интерпретация подходит; мы не хотим совершать слишком много ошибок типа I, мы хотим извлекать самые захватывающие сигналы, хотя мы можем пропустить некоторые.
Гипотеза Неймана-Пирсона имеет смысл, когда есть две непересекающиеся альтернативы (например, бозон Хиггса существует или не существует), между которыми мы решаем. Помимо риска ошибки типа I, здесь также можно сделать ошибку типа II - когда есть реальный сигнал, но мы говорим, что его нет, принимая «нулевое» решение. Аргументом NP было то, что, не делая слишком много ошибок типа I, мы хотим минимизировать риск ошибок типа II.
Часто ни одна из систем не кажется идеальной - например, вы можете просто захотеть точную оценку и соответствующую меру неопределенности. Кроме того, может не иметь значения, какую версию вы используете, потому что вы сообщаете значение p и оставляете интерпретацию теста читателю. Но чтобы выбрать один из подходов, описанных выше, определите, относятся ли ошибки типа II к вашему приложению.
источник
Все дело в том, что нельзя игнорировать философские различия. Математическая процедура в статистике не просто отдельная вещь, которую вы применяете без каких-либо основополагающих гипотез, предположений, теории ... философии.
Тем не менее, если вы настаиваете на приверженности частым философиям, может быть несколько очень специфических проблем, которые действительно необходимо рассмотреть Нейману-Пирсону. Все они попадают в класс повторного тестирования, такого как контроль качества или МРТ. Предварительная настройка конкретной альфа-версии и рассмотрение всей структуры типа I, типа II и мощности становятся более важными в этих условиях.
источник
Мое понимание таково: р-значение - это сказать нам, во что верить (проверка теории с достаточным количеством данных), в то время как подход Неймана-Пирсона должен сказать нам, что делать (принимать наилучшие возможные решения даже при ограниченных данных). Так что мне кажется, что (маленькое) значение p более строгое, в то время как подход Неймана-Пирсона более прагматичен; Вероятно, поэтому p-значение больше используется при ответах на научные вопросы, а Нейман и Пирсон - больше при принятии статистических / практических решений.
источник