У нас уже есть несколько потоков, помеченных как p-значения, которые показывают много недоразумений о них. Десять месяцев назад мы имели нить о психологическом журнале , что «запрещено» -значения р , в настоящее время Американской статистической ассоциации (2016) говорит , что с нашим анализом мы «не должны заканчиваться с расчетом на -значение».
Американская статистическая ассоциация (ASA) считает, что научное сообщество могло бы извлечь пользу из официального заявления, разъясняющего несколько широко согласованных принципов, лежащих в основе правильного использования и интерпретации значения.
Комитет перечисляет другие подходы в качестве возможных альтернатив или дополнений к :
Ввиду распространенных злоупотреблений и неправильных представлений о некоторые статистики предпочитают дополнять или даже заменять другими подходами. К ним относятся методы, которые подчеркивают оценку по сравнению с тестированием, такие как доверительные интервалы, достоверность или интервалы прогнозирования; Байесовские методы; альтернативные меры доказательств, такие как отношения правдоподобия или байесовские факторы; и другие подходы, такие как теоретико-решающее моделирование и ложные скорости обнаружения Все эти меры и подходы основаны на дальнейших допущениях, но они могут более непосредственно учитывать размер эффекта (и связанную с ним неопределенность) или правильность гипотезы. р
Итак, давайте представим реальность после значений. ASA перечисляет некоторые методы, которые можно использовать вместо значений , но почему они лучше? Какой из них может быть реальной заменой исследователю, который использовал всю свою жизнь? Я полагаю , что такого рода вопросы будут появляться в пост- -значения реальности, так что, может быть , давайте стараться быть один шаг впереди них. Какова разумная альтернатива, которая может быть применена из коробки? Почему этот подход должен убедить вашего ведущего исследователя, редактора или читателей?р р р
Как следует из следующей записи в блоге , значения непревзойденны своей простотой:
Для р-значения требуется только статистическая модель поведения статистики при нулевой гипотезе. Даже если для выбора «хорошей» статистики используется модель альтернативной гипотезы (которая будет использоваться для построения p-значения), эта альтернативная модель не обязательно должна быть корректной, чтобы p-значение было действительным и полезно (то есть: ошибка контроля типа I на желаемом уровне, предлагая некоторую мощность для обнаружения реального эффекта). Напротив, другие (замечательные и полезные) статистические методы, такие как отношения правдоподобия, оценка размера эффекта, доверительные интервалы или байесовские методы, требуют, чтобы предполагаемые модели удерживались в более широком диапазоне ситуаций, а не только при проверенном нулевом значении.
Являются ли они или, может быть, это не так, и мы можем легко заменить их?
Я знаю, что это широко, но основной вопрос прост: что является лучшей (и почему) реальной альтернативой реальной жизни, которую можно использовать в качестве замены?
ASA (2016). ASA Заявление о статистической значимости и . Американский статистик. (в прессе)
Ответы:
Я сосредоточу этот ответ на конкретном вопросе о том, каковы альтернативы .п
Имеется 21 документ для обсуждения, опубликованный вместе с заявлением ASA (в качестве дополнительных материалов): Наоми Альтман, Дуглас Альтман, Даниэль Дж. Бенджамин, Йоав Бенджамини, Джим Бергер, Дон Берри, Джон Карлин, Джордж Кобб, Эндрю Гельман, Стив Гудман, Сандер Гренландия, Джон Иоаннидис, Джозеф Горовиц, Вален Джонсон, Майкл Лавин, Майкл Лью, Род Литтл, Дебора Майо, Мишель Миллар, Чарльз Пул, Кен Ротман, Стивен Сенн, Дален Стенгл, Филипп Старк и Стив Зилиак (некоторые из них написали вместе ; Я перечисляю все для будущих поисков). Эти люди, вероятно, охватывают все существующие мнения о и статистическом выводе.п
Я просмотрел все 21 статьи.
К сожалению, большинство из них не обсуждают никаких реальных альтернатив, хотя большинство из них касаются ограничений, недоразумений и различных других проблем с (для защиты p- значений см. Benjamini, Mayo и Senn). Это уже говорит о том, что альтернативы, если таковые имеются, нелегко найти и / или защитить.п п
Итак, давайте посмотрим на список «других подходов», приведенный в самом заявлении ASA (как указано в вашем вопросе):
Доверительные интервалы
Доверительные интервалы - это инструмент для частых исследований, который идет рука об руку с ; сообщение о доверительном интервале (или некотором эквивалентном, например, среднем ± стандартная ошибка среднего) вместе с p- значением почти всегда является хорошей идеей.п ± п
Некоторые люди (не входит в числе спорящих ASA) свидетельствуют о том , что доверительные интервалы должны заменить на -значение. Одним из наиболее ярых сторонников этого подхода является Джефф Камминг, который называет это новой статистикой (имя, которое я нахожу ужасающим). См., Например, это сообщение в блоге Ульриха Шиммака для подробной критики: Критический обзор новой статистики Камминга (2014): Перепродажа старой статистики как новой статистики . См. Также Мы не можем позволить себе изучить величину эффекта в лабораторном сообщении Ури Симонсона для соответствующей темы.п
Смотрите также эту тему (и мой ответ в них) о предложении по похоже Norm Matloff где я спорю , что при составлении отчетов КЕ один все же хотел бы иметь -значение сообщило , а также: Что такое хорошо, убедительный пример , в котором р-значение полезны?п
Однако некоторые другие люди (не входящие в спор ASA) утверждают, что доверительные интервалы, являясь инструментом для частых исследований, так же ошибочны, как и и их также следует утилизировать. Смотри, например, Morey et al. 2015, Ошибка установления уверенности в доверительных интервалах, связанных @Tim здесь в комментариях. Это очень старая дискуссия.п
Байесовские методы
(Мне не нравится, как оператор ASA формулирует список. Достоверные интервалы и байесовские факторы перечислены отдельно от «байесовских методов», но они, очевидно, являются байесовскими инструментами. Поэтому я считаю их здесь вместе.)
Существует огромная и очень самоуверенная литература о байесовских и частых дебатах. Посмотрите, например, эту недавнюю ветку для некоторых мыслей: когда (если когда-либо) подход по частоте значительно лучше, чем байесовский? Байесовский анализ имеет смысл, если у кого-то есть хорошие информативные априоры, и все будут рады вычислить и сообщить о или p ( H 0 : θ = 0 | data ) вместо p ( данные по крайней мере как экстремальные | H 0 )p ( θ | данные ) p ( H0: θ = 0 | данные ) p ( данные как минимум экстремальные | H0) Но, увы, у людей обычно нет хороших приоры. Экспериментатор регистрирует 20 крыс, которые делают что-то в одном состоянии, и 20 крыс, которые делают то же самое в другом состоянии; предсказание состоит в том, что производительность первых крыс будет превышать производительность последних, но никто не будет желать или действительно сможет установить четкий априор в отношении различий в производительности. (Но смотрите ответ @ FrankHarrell, где он выступает за использование «скептических априоров».)
Стойкие байесовцы предлагают использовать байесовские методы, даже если у кого-то нет информативных априоров. Одним из недавних примеров является Krushke, 2012, байесовская оценка заменяет критерийT , смиренно сокращенный как BEST. Идея состоит в том, чтобы использовать байесовскую модель со слабыми неинформативными априорными значениями для вычисления апостериорного значения эффекта интереса (такого как, например, различие в группах). Практическая разница с частыми рассуждениями, как правило, незначительна, и, насколько я понимаю, этот подход остается непопулярным. Смотрите Что такое «неинформативный априор»? Можем ли мы когда-нибудь иметь действительно без информации? для обсуждения того, что является «неинформативным» (ответ: такой вещи нет, отсюда и спор).
Альтернативный подход, восходящий к Гарольду Джеффрису, основан на байесовском тестировании (в отличие от байесовской оценки ) и использует байесовские факторы. Одним из наиболее красноречивых и плодовитых сторонников Эрик-Ян Вагенмакерс, который опубликовал много на эту тему в последние годы. Здесь стоит подчеркнуть две особенности этого подхода. Во-первых, см. Wetzels et al., 2012, Тест байесовской гипотезы по умолчанию для проектов ANOVA, чтобы показать, насколько сильно результат такого байесовского теста может зависеть от конкретного выбора альтернативной гипотезыЧАС1 и распределение параметров («предыдущий»), которое он устанавливает. Во-вторых, после выбора «разумного» априора (Wagenmakers рекламирует так называемые априоры Джеффриса по умолчанию), результирующие байесовские коэффициенты часто оказываются вполне совместимыми со стандартными , см., Например, этот рисунок из этого препринта Marsman & Wagenmakers :п
См. Также Байесовский тест по умолчанию, предвзятый по отношению к небольшому эффекту пост в блоге Ури Симонсона.
Для дальнейшего обсуждения байесовской оценки и байесовского тестирования см. Оценку байесовского параметра или проверку байесовской гипотезы? и ссылки в нем.
Минимальные байесовские факторы
Среди спорщиков ASA это явно предложено Benjamin & Berger и Valen Johnson (единственные две статьи, которые все о предложении конкретной альтернативы). Их конкретные предложения немного отличаются, но они похожи по духу.
Позднее обновление: посмотрите хороший мультфильм, объясняющий эти идеи простым способом.
Краткая критика статьи Джонсона приведена в ответах Эндрю Гельмана и @ Xi'an в PNAS. Для контраргумента к Berger & Sellke 1987 см. Casella & Berger 1987 (другой Berger!). Среди дискуссионных документов APA Стивен Сенн явно выступает против любого из этих подходов:
Смотрите также ссылки в статье Сенна, в том числе на блог Мейо.
В заявлении ASA в качестве другой альтернативы перечислены «теоретическое решение и скорость ложных открытий». Я понятия не имею, о чем они говорят, и я был рад видеть, что это заявлено в документе для обсуждения Старком:
Цитата из дискуссионного доклада Эндрю Гельмана:
И от Стивена Сенна:
источник
Вот мои два цента.
Я думаю, что в какой-то момент многие прикладные ученые сформулировали следующую «теорему»:
и большинство плохих практик исходят отсюда.
Раньше я работал с людьми, использующими статистику, не понимая ее по-настоящему, и вот что я вижу:
Все это делают опытные, честные ученые, у которых нет сильного чувства обмана. Почему ? ИМХО, из-за теоремы 1.
Еще один связанный с этим случай, когда эксперты хотят:
Упоминание альтернативной гипотезы - единственное решение для решения этого случая.
Таким образом, использование апостериорных коэффициентов, байесовского коэффициента или отношения правдоподобия совместно с доверительными / вероятными интервалами, по-видимому, уменьшает основные проблемы.
Мой вывод за два цента
источник
За исключением гауссовских линейных моделей и экспоненциального распределения, почти все, что мы делаем с логическим выводом, является приблизительным (хороший пример - бинарная логистическая модель, которая вызывает проблемы, потому что ее логарифмическая функция правдоподобия очень неквадратична). С байесовским выводом все точно с точностью до ошибки симуляции (и вы всегда можете сделать больше симуляций, чтобы получить апостериорные вероятности / достоверные интервалы).
Я написал более подробный отчет о моем мышлении и развитии на http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html.
источник
Блестящий прогнозист Скотт Армстронг из Уортона опубликовал статью, опубликованную почти 10 лет назад под названием « Значимость проверяет прогресс в прогнозировании вреда», в международном журнале по прогнозированию журнала, который он стал соучредителем. Даже при том, что это в прогнозировании, это могло быть обобщено к любому анализу данных или принятию решения. В статье он утверждает, что:
Это отличное чтиво для любого, кто интересуется противоположным взглядом на тестирование значимости и значения P.
Причина, по которой мне нравится эта статья, заключается в том, что Армстронг предлагает альтернативы значимому тестированию, которое является кратким и может быть легко понято, особенно для такого не статистика, как я. Это намного лучше, по моему мнению, чем статья ASA, процитированная в вопросе:
Все это я продолжаю охватывать и с тех пор прекратил использовать тестирование значимости или анализ значений P, за исключением случаев, когда я делаю рандомизированные экспериментальные исследования или квази-эксперименты. Я должен добавить, что рандомизированные эксперименты очень редки на практике, за исключением фармацевтической промышленности / наук о жизни и в некоторых областях машиностроения.
источник
Нам нужно положить конец теоретическому решению статистического вывода. Мы должны постараться мыслить за пределами гипотезы. Растущий разрыв между клинической полезностью и исследованиями, основанными на гипотезах, ставит под угрозу научную целостность. «Значительное» исследование чрезвычайно показательно, но редко обещает какие-либо клинически значимые результаты.
Это очевидно, если мы проверим признаки гипотезы, основанной на выводе:
Для меня альтернативой является метааналитический подход, по крайней мере, качественный. Все результаты должны тщательно проверяться на предмет других «похожих» результатов и различий, описанных очень тщательно, особенно критериев включения / исключения, единиц или шкал, используемых для подверженности / результатов, а также размеров эффекта и интервалов неопределенности (которые лучше всего суммировать с 95% ДИ ).
Нам также необходимо провести независимые подтверждающие испытания. Многие люди склонны к одному, казалось бы, значительному испытанию, но без репликации мы не можем поверить, что исследование было проведено с этической точки зрения. Многие сделали научную карьеру из фальсификации доказательств.
источник
Две ссылки из медицинской литературы: (1) Лэнгман, MJS, озаглавленный « На пути к оценке и доверительным интервалам», и Гарднер М.Дж. и Альтман, DG, озаглавленные « Доверительные интервалы, а не значения {P}: оценка, а не проверка гипотез».
источник
Мой выбор - продолжать использовать значения p, но просто добавить доверительные / вероятные интервалы и, возможно, интервалы прогнозирования первичных результатов. Есть очень хорошая книга Дугласа Альтмана («Статистика с уверенностью», Wiley), и благодаря подходам boostrap и MCMC вы всегда можете создать достаточно надежные интервалы.
источник
Конечно, это не исключает нормального тестирования значимости гипотезы, но подчеркивает, что статистически значимые результаты являются очень ранними, промежуточными шагами на пути к настоящему открытию, и мы должны ожидать, что исследователи сделают гораздо больше с их результатами.
источник