Как строго обосновать выбранные коэффициенты ложноположительных / ложноотрицательных ошибок и базовое соотношение затрат?

контекст

Группа социологов и статистиков ( Benjamin et al., 2017 ) недавно предположила, что типичный ложноположительный показатель ( = .05), используемый в качестве порога для определения «статистической значимости», должен быть скорректирован до более консервативного порога. ( = .005). Противоборствующая группа социологов и статистиков ( Lakens et al., 2018 ) ответила, выступая против использования этого или любого другого произвольно выбранного порога. Ниже приводится цитата из Lakens et al. (стр. 16), которая помогает проиллюстрировать предмет моего вопроса: $\alpha$ $\alpha$

В идеале альфа-уровень определяется путем сравнения затрат и выгод с функцией полезности с использованием теории принятия решений. Этот анализ затрат и выгод (и, следовательно, альфа-уровень) отличается при анализе больших существующих наборов данных по сравнению со сбором данных из труднодоступных выборок. Наука разнообразна, и ученые должны обосновать альфа-уровень, который они решают использовать. ... Исследования должны основываться на принципах строгой науки, а не на эвристике и произвольных общих порогах.

Вопрос

Мне интересно, как можно оправдать выбранную альфу так, чтобы «руководствоваться принципами строгой науки», как Lakens et al. предположить, в большинстве социальных наук (т.е. вне отдельных случаев, когда нужно оптимизировать конкретное качество, например, прибыль)?

После распространения Lakens et al. Я начал видеть онлайн-калькуляторы, циркулирующие, чтобы помочь исследователям принять это решение. При их использовании исследователям необходимо указывать «соотношение затрат» ложноположительных и ложноотрицательных ошибок. Однако, как этот калькулятор здесь предполагает, определение такого соотношения с точки зрения затрат может включать в себя много количественных наугад:

В то время как некоторые затраты на ошибки легко количественно определить в денежном выражении (прямые затраты), другие трудно определить в виде суммы доларов (косвенные затраты). ... Несмотря на то, что количественно оценить сложно, вы должны приложить усилия к тому, чтобы указать число.

Например, хотя Lakens et al. Предложите изучить труднодоступные образцы в качестве фактора, который можно учитывать при обосновании альфа. Кажется, что до сих пор остается гадать, насколько труднодоступен этот образец, и, следовательно, как соответствующим образом настроить выбор альфа. В качестве другого примера, мне было бы трудно количественно оценить стоимость публикации ложноположительного результата с точки зрения того, сколько времени / денег другие впоследствии потратят на проведение исследований, основанных на ошибочном выводе.

Если определение этого соотношения затрат в значительной степени зависит от субъективных предположений о лучших догадках, мне остается задуматься, могут ли эти решения когда-либо (опять же, помимо оптимизации чего-то вроде прибыли) быть «оправданными». То есть таким образом, который существует вне допущений, сделанных в отношении выборки, компромиссов, воздействия и т. Таким образом, определение соотношения затрат ложноположительных / ложноотрицательных ошибок кажется мне чем-то сродни выбору априорного в байесовском выводе - решение, которое может быть несколько субъективным, влиять на результаты и, следовательно, обсуждаться. - хотя я не уверен, что это разумное сравнение.

Резюме

Чтобы сделать мой запрос конкретным:

Могут ли ложно-положительные / ложно-отрицательные показатели и их соотношение затрат когда-либо быть "строго" оправданными в большинстве социальных наук?
Если да, то каковы обобщаемые принципы, которым можно следовать, чтобы оправдать этот аналитический выбор (и, возможно, пример или два из них в действии)
Если нет, то разумна ли моя аналогия потенциальной субъективности при выборе соотношения затрат - как сродни байесовскому предварительному отбору?

Ссылки

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22 июля). Пересмотреть статистическую значимость. Получено с сайта psyarxiv.com/mky9j

Лакенс Д., Адольфи Ф.Г., Альберс С.Дж., Анвари Ф., Эппс, М.А., ... Цваан Р.А. (2018, 15 января). Обоснуйте свою альфу. Получено с сайта psyarxiv.com/9s3y6

hypothesis-testing p-value power type-i-and-ii-errors jsakaluk
источник

Можете ли вы определить, как вы используете «объективно оправдано»? Вероятности ошибок типа I являются предпочтением исследователя ... как и априорные вероятности ошибок типа II. Каким образом исследователь «объективно обосновал», скажем, предпочтительную программу исследований, предпочтительного сотрудника или спонсора исследования или предпочтительный подход к обучению и наставничеству научного ассистента?

Алексис

Объективно оправдано, как не просто предпочтение. Бумага Лакенса и др. В настоящее время распространяется под сокращенным названием «JYA» («Обоснуйте свою альфу»), и я прочитал их аргумент, основанный на приведенных выше цитатах, что никакие старые предпочтения не подойдут. Чтобы быть ясным: я не обязательно приводить аргумент, что можно объективно оправдать выбранную частоту ошибок типа I / II. Скорее, мой запрос основан на интерпретации Lakens et al. предположить, что вы можете, и если это так, то я не понимаю, как это можно сделать.

jsakaluk

Я не вижу слова «объективно» в этой цитате из Lakens et al. Они действительно используют это в своей газете? Если это так, может быть, вы могли бы добавить еще одну цитату, чтобы обеспечить более конкретный контекст? Если нет, то я не уверен, что вы можете сказать что-то вроде «объективного оправдания выбранной альфы, как предлагают Лакенс и др.».

говорит амеба, восстанови Монику

Я обновил пост, который теперь лишен "объективности". У меня не было намерения исказить аргумент, но я могу понять, считали ли читатели, что я написал небрежно. Лакенс и соавт. ли использовать дескриптор « руководствуясь принципами научной строгости», поэтому мой вопрос теперь на прочном основе. Однако мне все еще интересно, что это может значить; как догадки кажутся необходимыми более строгими, чем эвристические? Если это имеет значение, мне особенно любопытно, как научный реалист достиг бы стандарта «научно строгого» оправдания для альфы.

jsakaluk

Опять же, это не мой термин, и часть моего вопроса направлена на получение ответов, которые могут помочь мне понять, что этот термин может означать - я прошу примерные обобщенные принципы - в рамках ограничений, которые, по словам Лакенс и др., Не среднее (т.е. не эвристический; не произвольный порог). Если вы имеете в виду несколько определений «научно обоснованного обоснования», которые могут генерировать разные ы и которые соответствуют неэвристическим / неаприоритетным ограничениям, я бы приветствовал их прочитать.

α

$\alpha$

jsakaluk

Ответы:

(также опубликовано в твиттере, но переиздано здесь) Моя попытка ответа: я не думаю, что обоснование может быть «чисто» объективным, но оно может основываться на критериях, которые можно оправдать рациональными / эмпирическими соображениями. Я думаю, что RSS - это пример того, как вы могли бы обосновать p <.005 для определенных типов исследований, но я также думаю, что есть другие обстоятельства, когда другая альфа была бы более оптимальной, чем <.005 (либо выше, либо ниже), в зависимости от какая альфа выполнима и какова цель исследования. Так, например, если у вас 5000 участников, а наименьший интересующий вас размер эффекта равен .10, вы можете использовать p <.001 и иметь мощность 90% (все числа составлены). Напротив, скажем, вы проводите небольшой эксперимент в качестве первоначального «доказательства концепции» для направления исследований. Вы можете иметь N = 100, р <.10, 90% мощности,

Марк Хоффарт
источник

В последнее время я много думал об одном и том же вопросе, и я думаю, что многие другие в психологии тоже.

Прежде всего, каждый из ваших вопросов относится к тому, сделан ли выбор объективно, а не субъективно, но (как отметили другие здесь) вы не полностью объяснили, что будет (на ваш взгляд) представлять собой объективный, а не субъективный выбор.

Возможно, вас заинтересует статья « Gelman & Hennig 2015», в которой раскрываются различные ценности, заключенные в обычном использовании «объективных» и «субъективных» ярлыков в науке. В их формулировке «цель» относится к ценностям прозрачности, консенсуса, беспристрастности и соответствия наблюдаемой реальности, тогда как «субъективная» относится к ценностям множественных точек зрения и зависимости от контекста.

Относительно вашего Вопроса 3, с точки зрения Байеса, вероятность определяется как количественная неопределенность мира. Из того, что я понимаю, существует очевидная напряженность между «субъективистскими байесовскими» (вероятности отражают отдельные состояния убеждений) и «объективистскими байесовскими» школами мысли (вероятности отражают консенсусную правдоподобность). В объективистской школе более сильный акцент делается на обосновании предшествующего распределения (и модели в целом) прозрачным способом, который согласуется с консенсусом и который можно проверить, но выбор модели, безусловно, зависит от контекста (т.е. , зависит от консенсусного состояния знаний по конкретной проблеме).

В частой концепции вероятности отражают число случаев, когда событие произойдет при бесконечных независимых повторениях. В рамках Неймана-Пирсона каждый устанавливает точную альтернативную гипотезу и точную альфу, принимает точный ноль или точную альтернативу (что эффект популяции точно равен указанному) на основе данных, а затем сообщает долгосрочная частота делает это по ошибке.

В этих рамках у нас редко бывает точная точечная оценка величины эффекта населения, а скорее диапазон вероятных значений. Следовательно, при условии наличия определенной альфа-версии мы не имеем точной оценки частоты ошибок типа 2, а имеем диапазон вероятных ошибок типа 2. Точно так же, я бы согласился с вашей общей точкой зрения, что у нас обычно нет точного понимания того, каковы будут затраты и выгоды от ошибки типа 1 или ошибки типа 2. Это означает, что мы часто сталкиваемся с ситуацией, когда у нас есть очень неполная информация о том, какой должна быть наша гипотеза, и даже меньше информации о том, каковы будут относительные издержки и выгоды принятия против отклонения этой гипотезы.

на ваши вопросы:

Могут ли ложноположительные / ложноотрицательные показатели и их соотношение затрат когда-либо быть объективно оправданными в большинстве социальных наук?

Я думаю, что оправдание может быть прозрачным, согласовываться с консенсусом, быть беспристрастным и соответствовать реальности (в той степени, в которой мы используем наилучшую доступную информацию о затратах и выгодах).

Тем не менее, я думаю, что такие обоснования также субъективны в том смысле, что может быть несколько обоснованных точек зрения относительно того, как установить альфа для данной проблемы, и в том, что составляет соответствующую альфа, может быть значимо контекстно-зависимым.

Например, в последние годы стало ясно, что многие эффекты в литературе отражают ошибки типа M или типа S. Они также могут отражать ошибки типа 1 в той степени, в которой исследование репликации может предоставить доказательства нулевого эффекта с нулевым эффектом.

В связи с этим наблюдением складывается консенсус в отношении того, что пороговое значение р-значения для утверждения с уверенностью должно быть неизменным или более строгим (т. Е. Никто не спорит о полном увеличении альфа до .10 или .20) , Аналогичным образом, складывается консенсус в отношении того, что значения p не следует использовать в качестве критерия для публикации (например, формат зарегистрированного отчета).

Для меня это отражает своего рода «объективный» источник информации - то есть, на мой взгляд, растет понимание того, что ложные заявления являются дорогостоящими для области (даже если мы не можем поставить сумму в долларах на эти расходы). Насколько я понимаю, нет четкого консенсуса в отношении того, что неспособность достичь порогового значения р является значительным расходом для этой области. Если есть затраты, они могут быть смягчены, если несоблюдение порогового значения p не влияет на то, превратится ли оценка в опубликованный документ.

Если да, то каковы обобщаемые принципы, которым можно следовать, чтобы оправдать этот аналитический выбор (и, возможно, пример или два из них в действии)

Я не уверен, но я бы склонялся к какому-то принципу, согласно которому решения должны приниматься на основе прозрачных (локальных или глобальных) консенсусных суждений относительно затрат и выгод различных видов аналитического выбора в конкретном контексте, даже в перед лицом крайне неполной информации о том, какими могут быть эти затраты и выгоды.

Если нет, то разумна ли моя аналогия потенциальной субъективности при выборе соотношения затрат - как сродни байесовскому предварительному отбору?

Да, во всех распространенных и байесовских традициях есть место для субъективности (то есть множественных точек зрения и зависимости от контекста), а также объективности (то есть прозрачности, консенсуса, беспристрастности и соответствия наблюдаемой реальности) во многих различных аспектах статистической модели. и как эта модель используется (выбранный ранее, выбранная вероятность, выбранный порог принятия решения и т. д.).

закваска
источник

Это хороший ответ. Одна вещь, в которой я не так уверен, это требование переписки. Если мы понимаем этот термин одинаково (я думаю с точки зрения теории соответствия истины), то на самом деле это звучит так, как будто переписка может быть шаткой, если у нас нет точного представления о стоимости Типа. I / II ошибки. Вместо этого, звучит так, как будто бы лучше претендовать на согласованность (учитывая эти первоначальные предположения, остальные числа «имеют смысл») или прагматизм (наше предположение о стоимости ошибок типа I / II является полезной фикцией для планирования исследования).

jsakaluk

Возможно, я слишком стараюсь сочетать «оправдание» с перепиской / реалистической перспективой, и в этих других способах понимания частоту появления ошибок типа I / II можно выбирать так, чтобы это было «оправдано»?

jsakaluk

Спасибо, что указали мне на эти идеи. Я бы сказал, что в любом конкретном контексте у нас может быть хорошая информация о том, какие будущие затраты и выгоды могут быть, или у нас может быть очень плохая информация. В очень грубом смысле растет согласие с тем, что ложные срабатывания (р <порог, истинный эффект точно равен нулю) могут быть более вредными для поля, чем случаи несоблюдения порога значимости (но в любом случае публикация оценки). В определенных местных условиях могут быть более серьезные расходы, связанные с несоблюдением порога значимости.

закваска

Тангенциально, понятия «альфа» и «ошибка типа 2» существуют только в структуре НП, где аналитик указал две точные гипотезы и обязуется принять одну или другую в конце процедуры. Однако в обычной практике аналитиков часто предупреждают, что они не должны принимать ноль на основе незначительной оценки с неопределенной силой, по существу возвращаясь к интерпретации в стиле Фишера, где нет принятия ноля и нет «ошибки типа 2».

закваска

Мне забавно, что социальные сети, социальные классы и социальные взаимодействия, лежащие в основе вашего описания «консенсуса», каким-то образом отделены от субъективных убеждений и ценностей, которые лежат в основе их всех.

Алексис