Это решение проблемы p-значения?

67

В феврале 2016 года Американская статистическая ассоциация выпустила официальное заявление о статистической значимости и p-значениях. Наша ветка об этом подробно обсуждает эти вопросы. Однако до сих пор нет авторитета, который бы предлагал общепризнанную эффективную альтернативу. Американское статистическое общество (АСС) опубликовало свой ответ, p-значения: что дальше?

«Значение р не очень хорошо для многих».

Мы считаем, что ASA не зашел достаточно далеко. Настало время признать, что эра р-значений закончилась. Статистики успешно использовали их, чтобы сбить с толку студентов, обмануть ученых и дурачить редакторов повсюду, но мир начинает понимать эту хитрость. Мы должны отказаться от этой попытки начала XX века статистиками контролировать процесс принятия решений. Нам нужно вернуться к тому, что на самом деле работает.

Официальное предложение АСС таково:

Вместо p-значений ASS выступает за STOP (процедура SeaT-Of-Pants). Этот проверенный временем и проверенный метод использовался древними греками, людьми эпохи Возрождения и всеми учеными, пока не появился Рональд Фишер и не разрушил все. СТОП простой, прямой, управляемый данными и авторитетный. Для этого авторитетная фигура (предпочтительнее мужчина старшего возраста) просматривает данные и решает, согласны ли они с его мнением. Когда он решает, что они это делают, результат «значительный». В противном случае это не так, и все должны забыть обо всем этом.

принципы

Ответ обращается к каждому из шести принципов ASA.

  1. STOP может указывать, насколько несовместимы данные с указанной статистической моделью.

    Нам нравится эта фраза, потому что это такой причудливый способ сказать, что СТОП ответит на любой вопрос, да или нет. В отличие от p-значений или других статистических процедур, это не оставляет сомнений. Это идеальный ответ для тех, кто говорит: «Нам не нужна вонючая нулевая гипотеза! Что это за *?! @? Никто никогда не мог понять, каким он должен был быть ».

  2. СТОП не измеряет вероятность того, что гипотеза верна: она на самом деле решает, верна она или нет.

    Все смущены вероятностями. Убирая вероятность из картины, STOP устраняет необходимость в многолетнем обучении студентов и аспирантов. Теперь любой (кто достаточно взрослый и мужской) может выполнять статистический анализ без боли и мучений, слушая даже одну статистическую лекцию или запуская тайное программное обеспечение, которое издает непонятный результат.

  3. Научные выводы и деловые или политические решения могут основываться на здравом смысле и реальных авторитетных фигурах.

    В любом случае, важные решения всегда принимались властями, поэтому давайте просто признаем это и исключим посредников. Использование СТОП освободит статистиков для выполнения того, для чего они лучше всего подходят: использования чисел, чтобы скрыть правду, и освящения предпочтений тех, кто у власти.

  4. Правильный вывод требует полной отчетности и прозрачности.

    STOP - самая прозрачная и очевидная статистическая процедура, когда-либо изобретенная: вы смотрите на данные и принимаете решение. Это устраняет все эти запутанные z-тесты, t-тесты, тесты хи-квадрат и процедуры алфавитного супа (ANOVA! GLM! MLE!), Используемые людьми, чтобы скрыть тот факт, что они понятия не имеют, что означают данные.

  5. СТОП измеряет важность результата.

    Это самоочевидно: если человек, пользующийся полномочиями, использует СТОП, то результат должен быть важным.

  6. Сам по себе СТОП является хорошим доказательством в отношении модели или гипотезы.

    Мы бы не хотели бросать вызов авторитету, не так ли? Исследователи и лица, принимающие решения, признают, что СТОП предоставляет всю необходимую им информацию. По этим причинам анализ данных может закончиться ОСТАНОВКОЙ; нет необходимости в альтернативных подходах, таких как p-значения, машинное обучение или астрология.

Другие подходы

Некоторые статистики предпочитают так называемые «байесовские» методы, в которых неясная теорема, посмертно опубликованная священнослужителем 18-го века, применяется бездумно для решения каждой проблемы. Его наиболее известные сторонники свободно признают, что эти методы являются «субъективными». Если мы собираемся использовать субъективные методы, то, очевидно, чем более авторитетным и знающим является лицо, принимающее решения, тем лучше будет результат. Таким образом, STOP становится логическим пределом всех байесовских методов. Зачем работать над этими ужасными вычислениями и тратить столько компьютерного времени, когда вы можете просто показать данные ответственному человеку и спросить его, каково его мнение? Конец истории.

Недавно возникло еще одно сообщество, которое бросило вызов священникам статистиков. Они называют себя «обучающимися машинам» и «исследователями данных», но на самом деле они просто хакеры, ищущие более высокий статус. Официальная позиция АСС заключается в том, что эти парни должны сформировать свою профессиональную организацию, если они хотят, чтобы люди воспринимали их всерьез.


Вопрос

Является ли это ответом на проблемы, которые ASA идентифицировала с тестированием p-значений и нулевой гипотезы? Может ли это действительно объединить байесовскую и частую парадигмы (как это явно указано в ответе)?

оборота
источник
11
"Дональд Трамп для верховного судьи STOP ASS: сделай статистику еще лучше!"
Алекс Р.
14
Очевидно, что СТОП - неоптимальная процедура. Я удивлен, что это избежало такой уважаемой организации ученых, как АСС. Для чего вообще тратить время на просмотр данных ? Просто дайте ваш ответ да / нет. Эта методология уже используется в настоящее время с большим эффектом. Примеров изобилия много, особенно в Соединенных Штатах за годы, кратные 4.
Кардинал
4
Я думаю, что предприятия также могут получить огромную выгоду от применения этих методов, поскольку им больше не придется брать на себя большие расходы по найму людей для анализа своих данных.
dsaxton
4
@henry Как будто тег [апрель-1] нам об этом не говорил?
Glen_b
9
@ Генри Серьезно? Можете ли вы показать нам какую-нибудь фальшивую организацию, которая получила более четверти миллиона просмотров, когда вы назвали ее Google?
whuber

Ответы:

18

Я защищаю свой собственный новый подход к принятию статистических решений под названием RADD: R oll A D amn D ie. Здесь также рассматриваются все ключевые моменты.

1) RADD может указывать, насколько данные совместимы с указанной статистической моделью.

Если вы выберете большее число, очевидно, что больше доказательств в пользу вашей модели! Дополнительным преимуществом является то, что, если мы хотим еще большей уверенности, мы можем бросить кубик с большим количеством сторон. Вы даже можете найти 100 односторонних костей, если вы ищете достаточно!

2) RADD может решить, является ли гипотеза верной или нет.

Вам нужно только бросить 2-х сторонний кубик, то есть подбросить монетку.

3) RADD может использоваться для принятия деловых или политических решений

Соберите кучку политиков в комнате, и пусть они все бросят кости! Самые высокие победы!

4) РАДД является прозрачным.

Результат может быть записан, а сам кристалл может быть сохранен для дальнейшего исследования *

5) RADD измеряет важность результата.

Очевидно, что подъем выше означает, что произошло очень важное событие.

6) RADD предоставляет хорошую меру доказательств.

Разве мы не говорили, что более высокие броски лучше?

Так что нет, STOP - это не ответ. Ответ RADD.

Мэтью Друри
источник
7
Не стоит забывать, что он может обеспечить контроль ошибок типа I (на любом желаемом уровне с учетом достаточной односторонней кости), например, путем отклонения нулевой гипотезы, когда одна из 5 сторон с наибольшим числом 100 односторонних игральных костей подходит для достижения 5% тип ошибки I
Бьорн
17

Я должен сказать , из моего опыта , что в бизнес - реальности СТОП является решение по умолчанию делает критерии, предпочиталиp-значения и другие частые или байесовские методы. С точки зрения бизнеса STOP дает простые и точные ответы, что делает его более надежным, чем неопределенные «вероятностные» методы. Более того, в подавляющем большинстве случаев его проще реализовать и адаптировать к изменяющейся реальности, чем другими методами. Решения «да / нет» более убедительны для среднего и высшего руководства. «Отчеты СТОП» в большинстве случаев короче и легче для чтения, чем основанные на данных. Более того, применение этого метода позволяет вашему работодателю сократить расходы на ученых данных и лицензии SAS. Я бы сказал, что единственная проблема со STOP состоит в том, что сделать презентацию PowerPoint с результатами STOP труднее, но это динамично развивающаяся область, поэтому в будущем могут быть предложены лучшие методы визуализации.

Тим
источник
6
После того, как слайды PowerPoint с заключением проинформированы, уже слишком поздно его менять, поэтому есть два варианта: сделать анализ подходящим для заключения или вообще не утруждаем себя анализом.
Марк Л. Стоун
12
@ MarkL. Стоун Конечно! Мне лично нравится идея составления графиков для презентации перед просмотром данных, идея основана на байесовском мышлении, и я называю их априорными графиками :) Я думаю, что этот подход впервые появился в печати здесь: dilbert.com/strip/ 2008-05-08
Тим
15

Это прекрасное дополнение к дискуссии о p-значении, интересное, но, на мой взгляд, несколько устаревшее, напоминает мне об уникальной газете, опубликованной несколько лет назад в рождественском выпуске British Medical Journal (BMJ), в которой каждое Рождество публикуется настоящее, но забавное исследование. статьи. В частности, эта работа Исаака и Фицджеральда выдвинула на первый план семь ключевых альтернатив медицине, основанной на доказательствах (то есть медицинская практика, основанная на фактических клинических и статистических данных):

  • Высокопреосвященство медицина
  • Vehemence на основе медицины
  • Красноречивая медицина
  • Провиденская медицина
  • Медицина на основе Diffidence
  • Медицина на основе нервозности
  • Доверие медицина

Самое интересное, что вы должны взглянуть на столбцы, в которых выделены измерительные приборы и единицы измерения для вышеперечисленных пунктов (например, аудиометр и децибел для медицины, основанной на страсти!).

оборота Джузеппе Бионди-Жоккай
источник
4
+1. Спасибо за великолепный вклад, совершенно в духе вопроса. (1) Просто чтобы уточнить: это спор о p-значении, который вы находите «устаревшим», или только этот вопрос? (2) Знаете ли вы, где найти ссылку (6), «J Экспоненциальная зарплата»? Я уверен, что было бы много заядлых читателей, если бы это было более известным.
whuber
5
(1) Ваш вклад является «сертифицированным свежим» (цитирует rottentomatoes.com). И наоборот, я нахожу несколько устаревшим этот акцент на ограничениях значений p. В эпоху машинного обучения, больших данных и плохой научной грамотности среди населения позиция ASA может показаться немного мазохистской. (2) Я думаю, что вы найдете эту статью в том же журнале, где они опубликовали рандомизированное исследование, рекомендованное в этом другом рождественском выпуске BMJ: bmj.com/content/327/7429/1459 .
Joe_74
Я всегда забываю, является ли медицина, основанная на доверии, использует вывод Даннинг-Крюгера?
Алексис