Ziliak (2011) выступает против использования p-значений и упоминает некоторые альтернативы; кто они такие?

25

В недавней статье, обсуждающей недостатки использования p-значения для статистического вывода, под названием «Matrixx v. Siracusano and Student v. Fisher Статистическая значимость в испытании» (DOI: 10.1111 / j.1740-9713.2011.00511.x), Стивен Т. Зиляк выступает против использования р-значений. В заключительных параграфах он говорит:

Данные это единственное, что мы уже знаем, и наверняка. То, что мы на самом деле хотим знать, - это нечто совершенно иное: вероятность того, что гипотеза верна (или, по крайней мере, практически полезна), учитывая имеющиеся у нас данные. Мы хотим знать вероятность того, что эти два препарата различны, и насколько, учитывая имеющиеся доказательства. Тест значимости, основанный на заблуждении транспонированной условной ловушки, в которую попал Фишер, не дает и не может сказать нам эту вероятность. Степенная функция, функция ожидаемых потерь и многие другие теоретико-решающие и байесовские методы, происходящие от Student и Jeffreys, теперь широко доступны и бесплатны в режиме онлайн.

Что такое степенная функция, функция ожидаемых потерь и «другие теоретико-решающие и байесовские методы»? Широко ли используются эти методы? Они доступны в R? Как реализуются эти новые предлагаемые методы? Как, например, я бы использовал эти методы для проверки своей гипотезы в наборе данных, в противном случае я бы использовал обычные t-тесты с двумя выборками и p-значения?

r hypothesis-testing statistical-significance bayesian p-value Ariel
источник

Есть много статей, в которых утверждается, что используются только , но это действительно зависит от контекста, IMO. Не могли бы вы добавить больше информации о том, что вас интересует (см. Ваше последнее предложение)?

p

$p$

ЧЛ

2

У меня нет доступа к статье, но этот аргумент указывает на довольно ошибочное понимание того, что происходит. Несмотря на ошибочное понимание, вывод о том, что другие статистические данные заслуживают рассмотрения, является обоснованным. Функция ожидаемых потерь - это просто оценка ожидаемого значения функции потерь (например, квадрат ошибки, логистика и т. Д.).

Итератор

В связи с тем, что недавно была опубликована похожая тема , я поднял вопрос об этой теме на Meta CV

Silverfish

17

Это звучит как другая резкая газета смущенного человека. Фишер не попал ни в одну из таких ловушек, хотя многие исследователи статистики это делают.

Проверка гипотез является теоретической проблемой решения. Как правило, вы получаете тест с заданным порогом между двумя решениями (гипотеза верна или гипотеза ложна). Если у вас есть гипотеза, которая соответствует одной точке, такой как , тогда вы можете рассчитать вероятность получения ваших данных, когда они верны. Но что вы делаете, если это не единственная точка? Вы получаете функцию . Гипотеза является такой гипотезой, и вы получаете такую функцию для вероятности получения ваших наблюдаемых данных, если они верны. Эта функция является степенной функцией. Это очень классически. Фишер знал все об этом. $\theta=0$ $\theta$ $\theta\not= 0$

Ожидаемая потеря является частью основного механизма теории принятия решений. У вас есть различные состояния природы и различные возможные данные, вытекающие из них, и некоторые возможные решения, которые вы можете принять, и вы хотите найти хорошую функцию от данных до решения. Как вы определяете хорошее? С учетом определенного состояния природы, лежащего в основе полученных вами данных, и решения, принятого с помощью этой процедуры, какова ваша ожидаемая потеря? Это проще всего понять в бизнес-задачах (если я сделаю это, основываясь на продажах, которые я наблюдал за последние три квартала, какова ожидаемая денежная потеря?).

Байесовские процедуры являются подмножеством процедур принятия решений. Ожидаемая потеря недостаточна для определения уникально лучших процедур во всех случаях, кроме тривиальных. Если одна процедура лучше другой в обоих состояниях A и B, очевидно, вы предпочтете ее, но если одна лучше в состоянии A, а другая лучше в состоянии B, что вы выбираете? Именно сюда входят вспомогательные идеи, такие как байесовские процедуры, минимаксность и непредвзятость.

T-критерий на самом деле является отличным решением теоретической задачи решения. Вопрос заключается в том, как вы выбираете отсечку по вы рассчитываете. Заданное значение соответствует заданному значению , вероятности ошибки типа I и заданному набору степеней зависимости от размера оцениваемого базового параметра. Это приближение, чтобы использовать точечную нулевую гипотезу? Да. Это обычно проблема на практике? Нет, точно так же, как использование приближенной теории Бернулли для отклонения луча, как правило, прекрасно в структурной инженерии. Бесполезно ли иметь значение? Нет. Другой человек, просматривающий ваши данные, может использовать другую $t$ $t$ $\alpha$ $\beta$ $p$ $\alpha$ чем вы, и значение учитывает это использование. $p$

Я также немного озадачен тем, почему он называет Студента и Джеффриса вместе, учитывая, что Фишер был ответственен за широкое распространение работы Студента.

По сути, слепое использование p-значений - плохая идея, и они представляют собой довольно тонкое понятие, но это не делает их бесполезными. Должны ли мы возражать против их неправильного использования исследователями с плохим математическим образованием? Абсолютно, но давайте вспомним, как это выглядело до того, как Фишер попытался отогнать что-то для использования человеком в поле.

user873
источник

5

+1 за фактический ответ на вопрос и дополнительный (но виртуальный) +1 за оспаривание цитаты, что является провокационным, но проблематичным. Я вижу, вы здесь недавний участник, но уже предоставили много ответов: большое спасибо и добро пожаловать (немного запоздало) на наш сайт!

whuber

Большое спасибо за ваш подробный ответ. Это помогает подумать об альтернативных стратегиях, которые предложены в этой статье критически. Я задал этот вопрос, потому что некоторые коллеги использовали этот документ, чтобы сказать, что мы вообще не должны смотреть на p-значения, и я понял, что не понимаю, что на самом деле означают эти альтернативы. Спасибо за ваше разъяснение!

Ариэль

@whuber Я не думаю, что это отвечает на вопрос вообще. ОП спрашивал об альтернативах, которые предлагает Зилиак, и этот ответ не касается их. Например, критика значимости Зилиака касается того, почему люди используют 5% или 1% значимости. На самом деле нет веской причины, и он смог отследить эти уровни до бумаг Фишера. Это просто произвольный, удобный номер. В отличие от «альтернативных» подходов, основанных на денежных преимуществах, то есть долларовых ценностях.

Аксакал

1

@Aksakal Я полагаю, что важный вклад вносится в разговор, связывая проверку гипотез с теоретической проблемой решения и явно связывая p-значение с ожидаемым риском (основанным на функции потерь 0-1).

whuber

6

Я рекомендую сосредоточиться на таких вещах, как доверительные интервалы и проверка моделей. Эндрю Гельман проделал большую работу над этим. Я рекомендую его учебники, но также проверяю, что он выложил в Интернете, например, http://andrewgelman.com/2011/06/the_holes_in_my/

Майкл Бишоп
источник

5

Пакет ez обеспечивает отношения правдоподобия, когда вы используете ezMixed()функцию для моделирования смешанных эффектов. Соотношения правдоподобия нацелены на количественную оценку фактических данных о явлении путем сравнения вероятности (с учетом наблюдаемых данных) двух моделей: «ограниченной» модели, которая ограничивает влияние явления до нуля, и «неограниченной» модели, которая допускает ненулевое влияние феномен. После исправления наблюдаемых правдоподобий для дифференциальной сложности моделей (с помощью информационного критерия Акаике, который асимптотически эквивалентен перекрестной проверке), отношение количественно свидетельствует о наличии явления.

Майк Лоуренс
источник

4

Все эти техники доступны в R в том же смысле, что вся алгебра доступна в вашем карандаше. Даже значения p доступны через множество различных функций в R, решение о том, какую функцию использовать для получения значения p или байесовского апостериора, является более сложным, чем указатель на одну функцию или пакет.

Как только вы узнаете об этих методах и решите, на какой вопрос вы действительно хотите получить ответ, вы сможете увидеть (или мы можем предоставить дополнительную помощь), как это сделать с помощью R (или других инструментов). Просто сказать, что вы хотите минимизировать свою функцию потери или получить последующее распределение, примерно так же полезно, как отвечать на «еду», когда вас спрашивают, что вы хотите съесть на обед.

Грег Сноу
источник

Ziliak (2011) выступает против использования p-значений и упоминает некоторые альтернативы; кто они такие?

Ответы: