ASA обсуждает ограничения

100

У нас уже есть несколько потоков, помеченных как которые показывают много недоразумений о них. Десять месяцев назад мы имели нить о психологическом журнале , что «запрещено» -значенияp р , в настоящее время Американской статистической ассоциации (2016) говорит , что с нашим анализом мы «не должны заканчиваться с расчетом на -значение».p

Американская статистическая ассоциация (ASA) считает, что научное сообщество могло бы извлечь пользу из официального заявления, разъясняющего несколько широко согласованных принципов, лежащих в основе правильного использования и интерпретации значения.p

Комитет перечисляет другие подходы в качестве возможных альтернатив или дополнений к :p

Ввиду распространенных злоупотреблений и неправильных представлений о некоторые статистики предпочитают дополнять или даже заменять другими подходами. К ним относятся методы, которые подчеркивают оценку по сравнению с тестированием, такие как доверительные интервалы, достоверность или интервалы прогнозирования; Байесовские методы; альтернативные меры доказательств, такие как отношения правдоподобия или байесовские факторы; и другие подходы, такие как теоретико-решающее моделирование и ложные скорости обнаружения Все эти меры и подходы основаны на дальнейших допущениях, но они могут более непосредственно учитывать размер эффекта (и связанную с ним неопределенность) или правильность гипотезы. рpp

Итак, давайте представим реальность после значений. ASA перечисляет некоторые методы, которые можно использовать вместо значений , но почему они лучше? Какой из них может быть реальной заменой исследователю, который использовал всю свою жизнь? Я полагаю , что такого рода вопросы будут появляться в пост- -значения реальности, так что, может быть , давайте стараться быть один шаг впереди них. Какова разумная альтернатива, которая может быть применена из коробки? Почему этот подход должен убедить вашего ведущего исследователя, редактора или читателей?р р рpppp

Как следует из следующей записи в блоге , значения непревзойденны своей простотой:p

Для р-значения требуется только статистическая модель поведения статистики при нулевой гипотезе. Даже если для выбора «хорошей» статистики используется модель альтернативной гипотезы (которая будет использоваться для построения p-значения), эта альтернативная модель не обязательно должна быть корректной, чтобы p-значение было действительным и полезно (то есть: ошибка контроля типа I на желаемом уровне, предлагая некоторую мощность для обнаружения реального эффекта). Напротив, другие (замечательные и полезные) статистические методы, такие как отношения правдоподобия, оценка размера эффекта, доверительные интервалы или байесовские методы, требуют, чтобы предполагаемые модели удерживались в более широком диапазоне ситуаций, а не только при проверенном нулевом значении.

Являются ли они или, может быть, это не так, и мы можем легко заменить их?

Я знаю, что это широко, но основной вопрос прост: что является лучшей (и почему) реальной альтернативой реальной жизни, которую можно использовать в качестве замены?p


ASA (2016). ASA Заявление о статистической значимости и . P Американский статистик. (в прессе)

Тим
источник
3
Должен стать классическим вопросом +1! Байесовский подход, поскольку он позволяет нам (по крайней мере, субъективно) ответить на вопрос, который нас часто интересует, а именно: «В свете данных (данных), какова вероятность того, что гипотеза верна?»
Кристоф Ханк
9
« Реальность после значения» имеет приятное антиутопическое звучание. p
Марк Клазен
4
Документы для обсуждения, опубликованные вместе с заявлением ASA, стоит прочитать, так как некоторые из них содержат предложения о том, что может заменить p-значения. Дополнительный контент
Сет
2
Я разместил связанный вопрос, основанный на другой части отчета ASA, одном из предупреждений о возможных злоупотреблениях p-значениями: Как много мы знаем о p-хакерстве?
Серебряная рыба
1
В качестве комментария к моему собственному вопросу есть хорошая ветка, в которой обсуждается похожая тема: stats.stackexchange.com/questions/17897/…
Тим

Ответы:

100

Я сосредоточу этот ответ на конкретном вопросе о том, каковы альтернативы .p

Имеется 21 документ для обсуждения, опубликованный вместе с заявлением ASA (в качестве дополнительных материалов): Наоми Альтман, Дуглас Альтман, Даниэль Дж. Бенджамин, Йоав Бенджамини, Джим Бергер, Дон Берри, Джон Карлин, Джордж Кобб, Эндрю Гельман, Стив Гудман, Сандер Гренландия, Джон Иоаннидис, Джозеф Горовиц, Вален Джонсон, Майкл Лавин, Майкл Лью, Род Литтл, Дебора Майо, Мишель Миллар, Чарльз Пул, Кен Ротман, Стивен Сенн, Дален Стенгл, Филипп Старк и Стив Зилиак (некоторые из них написали вместе ; Я перечисляю все для будущих поисков). Эти люди, вероятно, охватывают все существующие мнения о и статистическом выводе.p

Я просмотрел все 21 статьи.

К сожалению, большинство из них не обсуждают никаких реальных альтернатив, хотя большинство из них касаются ограничений, недоразумений и различных других проблем с (для защиты p- значений см. Benjamini, Mayo и Senn). Это уже говорит о том, что альтернативы, если таковые имеются, нелегко найти и / или защитить.pp

Итак, давайте посмотрим на список «других подходов», приведенный в самом заявлении ASA (как указано в вашем вопросе):

[Другие подходы] включают в себя методы, которые подчеркивают оценку по сравнению с тестированием, такие как достоверность, достоверность или интервалы прогнозирования; Байесовские методы; альтернативные меры доказательств, такие как отношения правдоподобия или байесовские факторы; и другие подходы, такие как теоретико-решающее моделирование и уровни ложных открытий.

  1. Доверительные интервалы

    Доверительные интервалы - это инструмент для частых исследований, который идет рука об руку с ; сообщение о доверительном интервале (или некотором эквивалентном, например, среднем ± стандартная ошибка среднего) вместе с p- значением почти всегда является хорошей идеей.p±p

    Некоторые люди (не входит в числе спорящих ASA) свидетельствуют о том , что доверительные интервалы должны заменить на -значение. Одним из наиболее ярых сторонников этого подхода является Джефф Камминг, который называет это новой статистикой (имя, которое я нахожу ужасающим). См., Например, это сообщение в блоге Ульриха Шиммака для подробной критики: Критический обзор новой статистики Камминга (2014): Перепродажа старой статистики как новой статистики . См. Также Мы не можем позволить себе изучить величину эффекта в лабораторном сообщении Ури Симонсона для соответствующей темы.p

    Смотрите также эту тему (и мой ответ в них) о предложении по похоже Norm Matloff где я спорю , что при составлении отчетов КЕ один все же хотел бы иметь -значение сообщило , а также: Что такое хорошо, убедительный пример , в котором р-значение полезны?p

    Однако некоторые другие люди (не входящие в спор ASA) утверждают, что доверительные интервалы, являясь инструментом для частых исследований, так же ошибочны, как и и их также следует утилизировать. Смотри, например, Morey et al. 2015, Ошибка установления уверенности в доверительных интервалах, связанных @Tim здесь в комментариях. Это очень старая дискуссия.p

  2. Байесовские методы

    (Мне не нравится, как оператор ASA формулирует список. Достоверные интервалы и байесовские факторы перечислены отдельно от «байесовских методов», но они, очевидно, являются байесовскими инструментами. Поэтому я считаю их здесь вместе.)

    • Существует огромная и очень самоуверенная литература о байесовских и частых дебатах. Посмотрите, например, эту недавнюю ветку для некоторых мыслей: когда (если когда-либо) подход по частоте значительно лучше, чем байесовский? Байесовский анализ имеет смысл, если у кого-то есть хорошие информативные априоры, и все будут рады вычислить и сообщить о или p ( H 0 : θ = 0 | data ) вместо p ( данные по крайней мере как экстремальные | H 0 )p(θ|data)p(H0:θ=0|data)p(data at least as extreme|H0)Но, увы, у людей обычно нет хороших приоры. Экспериментатор регистрирует 20 крыс, которые делают что-то в одном состоянии, и 20 крыс, которые делают то же самое в другом состоянии; предсказание состоит в том, что производительность первых крыс будет превышать производительность последних, но никто не будет желать или действительно сможет установить четкий априор в отношении различий в производительности. (Но смотрите ответ @ FrankHarrell, где он выступает за использование «скептических априоров».)

    • Стойкие байесовцы предлагают использовать байесовские методы, даже если у кого-то нет информативных априоров. Одним из недавних примеров является Krushke, 2012, байесовская оценка заменяет критерийt , смиренно сокращенный как BEST. Идея состоит в том, чтобы использовать байесовскую модель со слабыми неинформативными априорными значениями для вычисления апостериорного значения эффекта интереса (такого как, например, различие в группах). Практическая разница с частыми рассуждениями, как правило, незначительна, и, насколько я понимаю, этот подход остается непопулярным. Смотрите Что такое «неинформативный априор»? Можем ли мы когда-нибудь иметь действительно без информации? для обсуждения того, что является «неинформативным» (ответ: такой вещи нет, отсюда и спор).

    • Альтернативный подход, восходящий к Гарольду Джеффрису, основан на байесовском тестировании (в отличие от байесовской оценки ) и использует байесовские факторы. Одним из наиболее красноречивых и плодовитых сторонников Эрик-Ян Вагенмакерс, который опубликовал много на эту тему в последние годы. Здесь стоит подчеркнуть две особенности этого подхода. Во-первых, см. Wetzels et al., 2012, Тест байесовской гипотезы по умолчанию для проектов ANOVA, чтобы показать, насколько сильно результат такого байесовского теста может зависеть от конкретного выбора альтернативной гипотезы H1и распределение параметров («предыдущий»), которое он устанавливает. Во-вторых, после выбора «разумного» априора (Wagenmakers рекламирует так называемые априоры Джеффриса по умолчанию), результирующие байесовские коэффициенты часто оказываются вполне совместимыми со стандартными , см., Например, этот рисунок из этого препринта Marsman & Wagenmakers :p

      Байесовские факторы против p-значений

      pp0.05α

      p

      См. Также Байесовский тест по умолчанию, предвзятый по отношению к небольшому эффекту пост в блоге Ури Симонсона.

    • pp


    Для дальнейшего обсуждения байесовской оценки и байесовского тестирования см. Оценку байесовского параметра или проверку байесовской гипотезы? и ссылки в нем.

  3. Минимальные байесовские факторы

    Среди спорщиков ASA это явно предложено Benjamin & Berger и Valen Johnson (единственные две статьи, которые все о предложении конкретной альтернативы). Их конкретные предложения немного отличаются, но они похожи по духу.

    • μ=00.5μ0.50p(H0)pppeplog(p)pelog(p)1020p Стивен Гудман тоже.

      Позднее обновление: посмотрите хороший мультфильм, объясняющий эти идеи простым способом.

      pp

      Минимальные байесовские факторы

    • p4πlog(p)510


    Краткая критика статьи Джонсона приведена в ответах Эндрю Гельмана и @ Xi'an в PNAS. Для контраргумента к Berger & Sellke 1987 см. Casella & Berger 1987 (другой Berger!). Среди дискуссионных документов APA Стивен Сенн явно выступает против любого из этих подходов:

    P

    Смотрите также ссылки в статье Сенна, в том числе на блог Мейо.

  4. В заявлении ASA в качестве другой альтернативы перечислены «теоретическое решение и скорость ложных открытий». Я понятия не имею, о чем они говорят, и я был рад видеть, что это заявлено в документе для обсуждения Старком:

    pp


ppppp

Цитата из дискуссионного доклада Эндрю Гельмана:

pp

И от Стивена Сенна:

P

p<0.05p

[...] не ищите волшебную альтернативу NHST, какой-то другой объективный механический ритуал, чтобы заменить его. Не существует

амеба говорит восстановить монику
источник
1
@amoeba спасибо, это отличное резюме! Я согласен с вашим скептицизмом - эта тема возникла отчасти потому, что я разделяю ее. В этот момент я оставляю тему открытой - без принятого ответа - так как, возможно, кто-то сможет привести убедительные примеры и аргументы в пользу того, что существует какая-то истинная, хорошая альтернатива.
Тим
1
@amoeba относительно Wagenmakers и BIC, хорошо сравнить его с критикой, например, Гельманом: andrewgelman.com/2008/10/23/i_hate_bic_blah
Тим
2
Это действительно впечатляющий ответ, который заслуживает того, чтобы быть среди самых популярных голосов в CV. Я могу добавить еще одну награду через некоторое время после Тима.
gung - Восстановить Монику
Спасибо, @gung, я рад это слышать, это много значит от тебя. Я должен сказать, однако, что я только поверхностно знаком с байесовским тестированием и имею нулевой практический опыт с ним. Так что этот ответ дает краткое изложение того, что я читал, но на самом деле это не экспертное мнение.
говорит амеба: восстанови Монику
1
Нет, вам не нужен информативный априор, чтобы Байес хорошо работал. Как хорошо показал Шпигельхальтер, скептические приоры играют важную роль и просты в использовании. Байесовские апостериорные вероятности имеют большие преимущества.
Фрэнк Харрелл
27

Вот мои два цента.

Я думаю, что в какой-то момент многие прикладные ученые сформулировали следующую «теорему»:

p-value<0.05my hypothesis is true.

и большинство плохих практик исходят отсюда.

p

Раньше я работал с людьми, использующими статистику, не понимая ее по-настоящему, и вот что я вижу:

  1. p<0.05

  2. p<0.05

  3. 0.05

Все это делают опытные, честные ученые, у которых нет сильного чувства обмана. Почему ? ИМХО, из-за теоремы 1.

p0.05p<0.05p<0.05

p

p

p>0.05

  1. H0:μ1μ2pH0p=0.2

pp(μ1>μ2|x)p(μ1<μ2|x)μ1>μ2μ2>μ1

Еще один связанный с этим случай, когда эксперты хотят:

  1. μ1>μ2>μ3μ1=μ2=μ3μ1>μ2>μ3

Упоминание альтернативной гипотезы - единственное решение для решения этого случая.

Таким образом, использование апостериорных коэффициентов, байесовского коэффициента или отношения правдоподобия совместно с доверительными / вероятными интервалами, по-видимому, уменьшает основные проблемы.

p

pp

Мой вывод за два цента

p

peuhp
источник
Возможно, вы могли бы отредактировать свой пример, чтобы он был более понятным, поскольку на данный момент, что вы рассчитывали, какие были данные и откуда пришли цифры?
Тим
@Тим. Ткс за фидбак. Какой пример вы приводите?
peuhp
«Попробуйте сравнить (только потому, что у нас есть данные) гипотезу: взять 10 и 10 данных, вычислить значение р. Найти р = 0,2 ....»
Тим
1
Я также не думаю, что «знание» вашей гипотезы верно, даже если данные свидетельствуют о том, что в противном случае это обязательно плохо. Очевидно, именно это почувствовал Грегор Мендель, когда с его экспериментами было что-то не так, потому что у него была такая сильная интуиция, что его теории были верны.
dsaxton
@dsaxton Полностью согласен с вами. Может быть, это не так ясно, но это одна вещь, которую я пытаюсь проиллюстрировать в моем 1-м пункте: p-значение не является окончательным ключом научной индукции (хотя, по-видимому, оно предназначено для определенной аудитории). Это статистическое измерение доказательств, представленных определенным количеством данных при определенных условиях. И в случае, когда у вас слишком много внешних причин думать, что это правда, но когда данные предоставляют «хорошее» значение p, могут обсуждаться другие вещи, как вы упомянули это. Я постараюсь прояснить это в моем ответе.
Peuhp
24

P

  1. Для часто используемых методов доступно больше программного обеспечения, чем для байесовских.
  2. В настоящее время некоторые байесовские анализы занимают много времени.
  3. Байесовские методы требуют больше размышлений и больших временных затрат. Я не возражаю против размышлений, но времени часто не хватает, поэтому мы выбираем короткие пути.
  4. Бутстрап является очень гибкой и полезной повседневной техникой, которая больше связана с миром частых людей, чем с байесовским.

PP заставляет делать произвольные корректировки множественности, даже поправляя внешний вид данных, которые могли бы оказать влияние, но на самом деле это не так.

P

За исключением гауссовских линейных моделей и экспоненциального распределения, почти все, что мы делаем с логическим выводом, является приблизительным (хороший пример - бинарная логистическая модель, которая вызывает проблемы, потому что ее логарифмическая функция правдоподобия очень неквадратична). С байесовским выводом все точно с точностью до ошибки симуляции (и вы всегда можете сделать больше симуляций, чтобы получить апостериорные вероятности / достоверные интервалы).

Я написал более подробный отчет о моем мышлении и развитии на http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html.

Фрэнк Харрелл
источник
3
p
2
p
3
t
1
Фрэнк, спасибо. Я не очень хорошо знаком с байесовским тестированием (и не слышал о Box & Tiao раньше), но у меня общее впечатление, что байесовский фактор, который можно получить из байесовского теста, может довольно сильно зависеть от конкретного выбора неинформативного априора, который идет. И этот выбор может быть трудно мотивировать. Я предполагаю, что то же самое касается достоверных интервалов - они будут сильно зависеть от выбора неинформативного априора. Разве это не правда? Если это так, то как с этим бороться?
говорит амеба, восстанови монику
2
Да, хотя я не использую байесовские факторы. Частотный подход также выбирает априор - тот, который игнорирует все остальные знания о предмете. Я предпочитаю скептический предварительный подход Шпигельхальтера. В идеальном мире вы позволите своим скептикам обеспечить приоритет.
Фрэнк Харрелл
6

Блестящий прогнозист Скотт Армстронг из Уортона опубликовал статью, опубликованную почти 10 лет назад под названием « Значимость проверяет прогресс в прогнозировании вреда», в международном журнале по прогнозированию журнала, который он стал соучредителем. Даже при том, что это в прогнозировании, это могло быть обобщено к любому анализу данных или принятию решения. В статье он утверждает, что:

«Тесты статистической значимости наносят вред научному прогрессу. На сегодняшний день попытки найти исключения из этого заключения не принесли результатов».

Это отличное чтиво для любого, кто интересуется противоположным взглядом на тестирование значимости и значения P.

Причина, по которой мне нравится эта статья, заключается в том, что Армстронг предлагает альтернативы значимому тестированию, которое является кратким и может быть легко понято, особенно для такого не статистика, как я. Это намного лучше, по моему мнению, чем статья ASA, процитированная в вопросе:введите описание изображения здесь

Все это я продолжаю охватывать и с тех пор прекратил использовать тестирование значимости или анализ значений P, за исключением случаев, когда я делаю рандомизированные экспериментальные исследования или квази-эксперименты. Я должен добавить, что рандомизированные эксперименты очень редки на практике, за исключением фармацевтической промышленности / наук о жизни и в некоторых областях машиностроения.

предсказатель
источник
4
Что вы имеете в виду, что «рандомизированные эксперименты очень редки на практике, кроме как в фармацевтической промышленности и в некоторых областях машиностроения»? Рандомизированные эксперименты повсюду в биологии и психологии.
говорит амеба: восстанови монику
Я отредактировал его, чтобы включить науки о жизни.
синоптик
2
Хорошо, но, говоря это ранд. эксп. "очень редки", за исключением медицины и наук о жизни, а психология в основном говорит, что они "очень распространены". Так что я не уверен в вашей точке зрения.
говорит амеба: восстанови монику
6

p

p, Я все еще думаю, что это адекватный подход, который оставляет вопрос научной применимости результатов в руках этих экспертов по контенту. Теперь ошибка, которую мы находим в современных приложениях, ни в коем случае не является ошибкой статистики как науки. Также в игре есть рыбалка, экстраполяция и преувеличение. Действительно, если (скажем) кардиолог должен лгать и утверждать, что лекарство, которое снижает среднее кровяное давление 0,1 мм рт. Ст., Является «клинически значимым», никакие статистические данные никогда не защитят нас от такого рода нечестности.

Нам нужно положить конец теоретическому решению статистического вывода. Мы должны постараться мыслить за пределами гипотезы. Растущий разрыв между клинической полезностью и исследованиями, основанными на гипотезах, ставит под угрозу научную целостность. «Значительное» исследование чрезвычайно показательно, но редко обещает какие-либо клинически значимые результаты.

Это очевидно, если мы проверим признаки гипотезы, основанной на выводе:

  • Указанная нулевая гипотеза надумана, не согласуется с текущими знаниями и не поддается разуму или ожиданиям.
  • Гипотезы могут быть касательными к тому, что автор пытается сделать. Статистические данные редко совпадают с большей частью последующего обсуждения в статьях, причем авторы делают далеко идущие заявления о том, что, например, их обсервационное исследование имеет значение для государственной политики и охвата.
  • Гипотезы, как правило, являются неполными в том смысле, что они неадекватно определяют интересующую популяцию и ведут к чрезмерной генерализации.

Для меня альтернативой является метааналитический подход, по крайней мере, качественный. Все результаты должны тщательно проверяться на предмет других «похожих» результатов и различий, описанных очень тщательно, особенно критериев включения / исключения, единиц или шкал, используемых для подверженности / результатов, а также размеров эффекта и интервалов неопределенности (которые лучше всего суммировать с 95% ДИ ).

Нам также необходимо провести независимые подтверждающие испытания. Многие люди склонны к одному, казалось бы, значительному испытанию, но без репликации мы не можем поверить, что исследование было проведено с этической точки зрения. Многие сделали научную карьеру из фальсификации доказательств.

Adamo
источник
«Первоначально Фишер предположил, что ученые должны качественно сравнить значение р с силой исследования и сделать там выводы». Мне нравится этот момент - у вас есть ссылка, которую я мог бы привести, где Фишер сказал это? Было бы огромным шагом вперед, если бы ученые перешли от простой дихотомии с p <0,05 к дихотомии с чуть меньшей сложностью: «Если p <0,05, а мощность была высокой, у нас есть достаточно веские доказательства. Если p> 0,05 ИЛИ мощность была низкой, мы не будем судить об этой гипотезе, пока не получим больше данных ".
Civilstat
6

ppp

Две ссылки из медицинской литературы: (1) Лэнгман, MJS, озаглавленный « На пути к оценке и доверительным интервалам», и Гарднер М.Дж. и Альтман, DG, озаглавленные « Доверительные интервалы, а не значения {P}: оценка, а не проверка гипотез».

mdewey
источник
2
На самом деле, CI не показывают размер и точность эффекта, см., Например, Morey et al (2015) «Ошибка уверенности в доверительных интервалах». Психономический бюллетень и обзор: learnbayes.org/papers/confidenceIntervalsFallacy
Тим
8
@ Тим, хорошая газета, я ее раньше не видел; Мне понравился пример подводной лодки. Спасибо за ссылку. Но следует сказать, что это написано настоящими байесовскими партизанами: «Небайесовские интервалы имеют нежелательные, даже причудливые свойства, которые могут привести к тому, что любой разумный аналитик отвергнет их как средство сделать выводы». Любой разумный аналитик! Впечатляющее высокомерие.
говорит амеба: восстанови Монику
1
@amoeba согласен, я просто привожу контрпример, поскольку, что касается меня, не так очевидно, что альтернативы являются такими ясными и прямыми, как может показаться на первый взгляд.
Тим
4
В то время как интересно, я не нашел пример подводной лодки, все это неотразимо. Ни один думающий статистик не рассуждал бы так, как в примере. Вы не перестаете думать и применяете метод вслепую ко всем ситуациям только потому, что он полезен в других.
dsaxton
2
@amoeba: В этой конкретной цитате «небайесовские интервалы» относятся конкретно к интервалам, обсуждаемым в этом примере, а не ко всем интервалам, оправданным небайесовской логикой. Дополнительную информацию см. Здесь: stats.stackexchange.com/questions/204530/…
richarddmorey
1

Мой выбор - продолжать использовать значения p, но просто добавить доверительные / вероятные интервалы и, возможно, интервалы прогнозирования первичных результатов. Есть очень хорошая книга Дугласа Альтмана («Статистика с уверенностью», Wiley), и благодаря подходам boostrap и MCMC вы всегда можете создать достаточно надежные интервалы.

Joe_74
источник
6
Я думаю, что вы на самом деле не отвечаете на главный вопрос: «Почему они лучше?» / «Почему этот подход должен убедить вашего ведущего исследователя, редактора или читателей?». Можете ли вы развить свой выбор?
peuhp
1. Это просто позволяет текущую практику. 2. В любом случае, существует тенденция проводить «тестирование значимости бэкдора» с помощью CI. 3. Тестирование на значимость (с p-значениями или CI) приводит к низкой степени воспроизводимости (см. Статьи Тима Лэша). 4. Исследователи не могут заранее определить клинически значимую границу или порог воздействия.
AdamO
1

p

  • разработать более сложную модель, которая способна моделировать результаты в целевой группе населения
  • определить и измерить атрибуты целевой группы населения, в которой может быть реализовано предлагаемое решение, лечение или политика
  • оценить путем моделирования ожидаемые потери в необработанных единицах целевого количества, таких как годы жизни, годы жизни с поправкой на качество, доллары, урожайность и т. д., и оценить неопределенность этой оценки.

Конечно, это не исключает нормального тестирования значимости гипотезы, но подчеркивает, что статистически значимые результаты являются очень ранними, промежуточными шагами на пути к настоящему открытию, и мы должны ожидать, что исследователи сделают гораздо больше с их результатами.

Adamo
источник