контекст
Группа социологов и статистиков ( Benjamin et al., 2017 ) недавно предположила, что типичный ложноположительный показатель ( = .05), используемый в качестве порога для определения «статистической значимости», должен быть скорректирован до более консервативного порога. ( = .005). Противоборствующая группа социологов и статистиков ( Lakens et al., 2018 ) ответила, выступая против использования этого или любого другого произвольно выбранного порога. Ниже приводится цитата из Lakens et al. (стр. 16), которая помогает проиллюстрировать предмет моего вопроса:α
В идеале альфа-уровень определяется путем сравнения затрат и выгод с функцией полезности с использованием теории принятия решений. Этот анализ затрат и выгод (и, следовательно, альфа-уровень) отличается при анализе больших существующих наборов данных по сравнению со сбором данных из труднодоступных выборок. Наука разнообразна, и ученые должны обосновать альфа-уровень, который они решают использовать. ... Исследования должны основываться на принципах строгой науки, а не на эвристике и произвольных общих порогах.
Вопрос
Мне интересно, как можно оправдать выбранную альфу так, чтобы «руководствоваться принципами строгой науки», как Lakens et al. предположить, в большинстве социальных наук (т.е. вне отдельных случаев, когда нужно оптимизировать конкретное качество, например, прибыль)?
После распространения Lakens et al. Я начал видеть онлайн-калькуляторы, циркулирующие, чтобы помочь исследователям принять это решение. При их использовании исследователям необходимо указывать «соотношение затрат» ложноположительных и ложноотрицательных ошибок. Однако, как этот калькулятор здесь предполагает, определение такого соотношения с точки зрения затрат может включать в себя много количественных наугад:
В то время как некоторые затраты на ошибки легко количественно определить в денежном выражении (прямые затраты), другие трудно определить в виде суммы доларов (косвенные затраты). ... Несмотря на то, что количественно оценить сложно, вы должны приложить усилия к тому, чтобы указать число.
Например, хотя Lakens et al. Предложите изучить труднодоступные образцы в качестве фактора, который можно учитывать при обосновании альфа. Кажется, что до сих пор остается гадать, насколько труднодоступен этот образец, и, следовательно, как соответствующим образом настроить выбор альфа. В качестве другого примера, мне было бы трудно количественно оценить стоимость публикации ложноположительного результата с точки зрения того, сколько времени / денег другие впоследствии потратят на проведение исследований, основанных на ошибочном выводе.
Если определение этого соотношения затрат в значительной степени зависит от субъективных предположений о лучших догадках, мне остается задуматься, могут ли эти решения когда-либо (опять же, помимо оптимизации чего-то вроде прибыли) быть «оправданными». То есть таким образом, который существует вне допущений, сделанных в отношении выборки, компромиссов, воздействия и т. Таким образом, определение соотношения затрат ложноположительных / ложноотрицательных ошибок кажется мне чем-то сродни выбору априорного в байесовском выводе - решение, которое может быть несколько субъективным, влиять на результаты и, следовательно, обсуждаться. - хотя я не уверен, что это разумное сравнение.
Резюме
Чтобы сделать мой запрос конкретным:
- Могут ли ложно-положительные / ложно-отрицательные показатели и их соотношение затрат когда-либо быть "строго" оправданными в большинстве социальных наук?
- Если да, то каковы обобщаемые принципы, которым можно следовать, чтобы оправдать этот аналитический выбор (и, возможно, пример или два из них в действии)
- Если нет, то разумна ли моя аналогия потенциальной субъективности при выборе соотношения затрат - как сродни байесовскому предварительному отбору?
Ссылки
Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22 июля). Пересмотреть статистическую значимость. Получено с сайта psyarxiv.com/mky9j
Лакенс Д., Адольфи Ф.Г., Альберс С.Дж., Анвари Ф., Эппс, М.А., ... Цваан Р.А. (2018, 15 января). Обоснуйте свою альфу. Получено с сайта psyarxiv.com/9s3y6
Ответы:
(также опубликовано в твиттере, но переиздано здесь) Моя попытка ответа: я не думаю, что обоснование может быть «чисто» объективным, но оно может основываться на критериях, которые можно оправдать рациональными / эмпирическими соображениями. Я думаю, что RSS - это пример того, как вы могли бы обосновать p <.005 для определенных типов исследований, но я также думаю, что есть другие обстоятельства, когда другая альфа была бы более оптимальной, чем <.005 (либо выше, либо ниже), в зависимости от какая альфа выполнима и какова цель исследования. Так, например, если у вас 5000 участников, а наименьший интересующий вас размер эффекта равен .10, вы можете использовать p <.001 и иметь мощность 90% (все числа составлены). Напротив, скажем, вы проводите небольшой эксперимент в качестве первоначального «доказательства концепции» для направления исследований. Вы можете иметь N = 100, р <.10, 90% мощности,
источник
В последнее время я много думал об одном и том же вопросе, и я думаю, что многие другие в психологии тоже.
Прежде всего, каждый из ваших вопросов относится к тому, сделан ли выбор объективно, а не субъективно, но (как отметили другие здесь) вы не полностью объяснили, что будет (на ваш взгляд) представлять собой объективный, а не субъективный выбор.
Возможно, вас заинтересует статья « Gelman & Hennig 2015», в которой раскрываются различные ценности, заключенные в обычном использовании «объективных» и «субъективных» ярлыков в науке. В их формулировке «цель» относится к ценностям прозрачности, консенсуса, беспристрастности и соответствия наблюдаемой реальности, тогда как «субъективная» относится к ценностям множественных точек зрения и зависимости от контекста.
Относительно вашего Вопроса 3, с точки зрения Байеса, вероятность определяется как количественная неопределенность мира. Из того, что я понимаю, существует очевидная напряженность между «субъективистскими байесовскими» (вероятности отражают отдельные состояния убеждений) и «объективистскими байесовскими» школами мысли (вероятности отражают консенсусную правдоподобность). В объективистской школе более сильный акцент делается на обосновании предшествующего распределения (и модели в целом) прозрачным способом, который согласуется с консенсусом и который можно проверить, но выбор модели, безусловно, зависит от контекста (т.е. , зависит от консенсусного состояния знаний по конкретной проблеме).
В частой концепции вероятности отражают число случаев, когда событие произойдет при бесконечных независимых повторениях. В рамках Неймана-Пирсона каждый устанавливает точную альтернативную гипотезу и точную альфу, принимает точный ноль или точную альтернативу (что эффект популяции точно равен указанному) на основе данных, а затем сообщает долгосрочная частота делает это по ошибке.
В этих рамках у нас редко бывает точная точечная оценка величины эффекта населения, а скорее диапазон вероятных значений. Следовательно, при условии наличия определенной альфа-версии мы не имеем точной оценки частоты ошибок типа 2, а имеем диапазон вероятных ошибок типа 2. Точно так же, я бы согласился с вашей общей точкой зрения, что у нас обычно нет точного понимания того, каковы будут затраты и выгоды от ошибки типа 1 или ошибки типа 2. Это означает, что мы часто сталкиваемся с ситуацией, когда у нас есть очень неполная информация о том, какой должна быть наша гипотеза, и даже меньше информации о том, каковы будут относительные издержки и выгоды принятия против отклонения этой гипотезы.
на ваши вопросы:
Я думаю, что оправдание может быть прозрачным, согласовываться с консенсусом, быть беспристрастным и соответствовать реальности (в той степени, в которой мы используем наилучшую доступную информацию о затратах и выгодах).
Тем не менее, я думаю, что такие обоснования также субъективны в том смысле, что может быть несколько обоснованных точек зрения относительно того, как установить альфа для данной проблемы, и в том, что составляет соответствующую альфа, может быть значимо контекстно-зависимым.
Например, в последние годы стало ясно, что многие эффекты в литературе отражают ошибки типа M или типа S. Они также могут отражать ошибки типа 1 в той степени, в которой исследование репликации может предоставить доказательства нулевого эффекта с нулевым эффектом.
В связи с этим наблюдением складывается консенсус в отношении того, что пороговое значение р-значения для утверждения с уверенностью должно быть неизменным или более строгим (т. Е. Никто не спорит о полном увеличении альфа до .10 или .20) , Аналогичным образом, складывается консенсус в отношении того, что значения p не следует использовать в качестве критерия для публикации (например, формат зарегистрированного отчета).
Для меня это отражает своего рода «объективный» источник информации - то есть, на мой взгляд, растет понимание того, что ложные заявления являются дорогостоящими для области (даже если мы не можем поставить сумму в долларах на эти расходы). Насколько я понимаю, нет четкого консенсуса в отношении того, что неспособность достичь порогового значения р является значительным расходом для этой области. Если есть затраты, они могут быть смягчены, если несоблюдение порогового значения p не влияет на то, превратится ли оценка в опубликованный документ.
Я не уверен, но я бы склонялся к какому-то принципу, согласно которому решения должны приниматься на основе прозрачных (локальных или глобальных) консенсусных суждений относительно затрат и выгод различных видов аналитического выбора в конкретном контексте, даже в перед лицом крайне неполной информации о том, какими могут быть эти затраты и выгоды.
Да, во всех распространенных и байесовских традициях есть место для субъективности (то есть множественных точек зрения и зависимости от контекста), а также объективности (то есть прозрачности, консенсуса, беспристрастности и соответствия наблюдаемой реальности) во многих различных аспектах статистической модели. и как эта модель используется (выбранный ранее, выбранная вероятность, выбранный порог принятия решения и т. д.).
источник