25 февраля 2015 года журнал « Базовая и прикладная социальная психология» опубликовал редакционную статью, запрещающую и доверительные интервалы во всех будущих статьях.
В частности, они говорят (форматирование и акцент мои):
[...] перед публикацией авторы должны будут удалить все остатки NHSTP [процедура проверки значимости нулевой гипотезы] ( , , , утверждения о «значительных» различиях или их отсутствии , и так далее).t F
По аналогии с тем, как NHSTP не может обеспечить вероятность нулевой гипотезы, которая необходима для веских аргументов в пользу ее отклонения, доверительные интервалы не дают веских оснований для вывода о том, что интересующий параметр совокупности, вероятно, будет в пределах заявленной интервал. Следовательно, доверительные интервалы также запрещены в BASP.
[...] в отношении байесовских процедур мы оставляем за собой право выносить индивидуальные суждения, и, таким образом, байесовские процедуры не требуются и не запрещаются BASP.
[...] Требуются ли какие-либо логические статистические процедуры? - Нет [...] Однако BASP потребует строгой описательной статистики, включая размеры эффекта.
Давайте не будем обсуждать проблемы и неправильное использование значений здесь; уже есть множество отличных обсуждений CV, которые можно найти, просмотрев тег p-value . Критика значений часто сочетается с рекомендацией сообщать доверительные интервалы для параметров, представляющих интерес. Например, в этом очень аргументированном ответе @gung предлагает сообщать размеры эффекта с доверительными интервалами вокруг них. Но этот журнал также запрещает доверительные интервалы.р
Каковы преимущества и недостатки такого подхода к представлению данных и экспериментальных результатов по сравнению с «традиционным» подходом с , доверительными интервалами и значительной / незначимой дихотомией? Реакция на этот запрет представляется в основном негативной; так какие же тогда недостатки? Американская статистическая ассоциация даже опубликовала краткий обескураживающий комментарий по поводу этого запрета, заявив, что «эта политика может иметь свои негативные последствия». Каковы могут быть эти негативные последствия?
Или, как предложил @whuber, следует ли вообще отстаивать этот подход в качестве парадигмы количественного исследования? И если нет, то почему?
PS. Обратите внимание, что мой вопрос не о самом запрете ; речь идет о предлагаемом подходе. Я также не спрашиваю о частых и байесовских умозаключениях. Редакция довольно негативно относится и к байесовским методам; так что в основном речь идет об использовании статистики, а не об использовании статистики вообще.
Ответы:
Первое предложение текущей редакции 2015 года, на которое ссылается ФП, гласит:
(мой акцент)
Другими словами, для редакторов уже доказанным научным фактом является то, что «проверка значимости нулевой гипотезы» недопустима, и редакционная статья 2014 года только подчеркивает это, в то время как текущая редакционная статья 2015 года просто реализует этот факт.
Неправильное (даже злонамеренное) использование NHSTP действительно хорошо обсуждено и задокументировано. И не случайно в истории человечества «вещи запрещены», потому что было обнаружено, что после всего сказанного и сделанного они были использованы не по назначению, а более эффективно (но разве мы не должны это статистически проверить?). Это может быть «вторым лучшим» решением - сократить то, что в среднем (логическая статистика) привело к потерям, а не к прибыли, и поэтому мы прогнозируем (логическая статистика), что это будет иметь пагубные последствия и в будущем.
Но рвение показали за формулировкой выше первого предложение, делает этот взгляд -exactly, как ревнителя подход , а не хладнокровное решение сократить руку , которая стремится украсть , а не предложение. Если кто-то прочтет редакционную статью на год старше, упомянутую в приведенной выше цитате (DOI: 10.1080 / 01973533.2014.865505), он увидит, что это только часть перенастройки политик Журнала новым редактором.
Прокручивая редакционную статью, они пишут
Таким образом, представляется, что их вывод, связанный с их дисциплиной, состоит в том, что нулевые гипотезы отвергаются «слишком часто», и поэтому предполагаемые результаты могут приобретать ложную статистическую значимость. Это не тот же аргумент, что и в "неверном" изречении в первом предложении.
Таким образом, чтобы ответить на вопрос, очевидно, что для редакторов журнала их решение не только разумно, но уже слишком поздно для реализации: они, кажется, думают, что они вырезали, какая часть статистики стала вредной, сохраняя полезные части - они, кажется, не верят, что здесь есть что-то, что нуждается в замене чем-то «эквивалентным».
Эпистемологически, это тот случай, когда ученые-социологи частично отказываются от попытки сделать свою дисциплину более объективной в своих методах и результатах, используя количественные методы, потому что они пришли к выводу (как?), Что, в конце концов, Попытка создала «больше плохого, чем хорошего». Я бы сказал, что это очень важный вопрос, который в принципе возможен, и для его демонстрации «вне всякого разумного сомнения» и реальной помощи вашей дисциплине потребуются годы. Но только одна или две опубликованные передовые статьи и статьи, скорее всего, (логическая статистика) разожгут гражданскую войну.
Последнее предложение редакции 2015 года гласит:
источник
Я чувствую, что запрещение тестов гипотез - отличная идея, за исключением нескольких избранных гипотез «существования», например, проверка нулевой гипотезы о том, что не существует экстрасенсорного восприятия, когда все, что нужно продемонстрировать, чтобы иметь доказательства того, что ESP существует, - это не случайность. , Но я думаю, что журнал упустил момент, что основной движущей силой плохого исследования в психологии является использование порога для значений . В психологии и большинстве других областей было продемонстрировано, что большое количество игр продолжается до . Это включает в себя подстановку гипотез, удаление наблюдений и поднабор данных. Это пороги, которые должны быть запрещены в первую очередь.P < 0,05P P<0.05
Запрет доверительных интервалов также за бортом, но не по причинам, указанным другими. Доверительные интервалы полезны, только если их неправильно интерпретируют как байесовские достоверные интервалы (для подходящих неинформационных априорных значений). Но они все еще полезны. Тот факт, что их точная интерпретация часто приводит только к путанице, означает, что нам нужно «выбраться из Доджа» и пойти в школу Байеса или вероятностного анализа. Но полезные результаты можно получить, неправильно истолковав старые добрые пределы доверия.
Обидно, что редакторы журнала неправильно поняли байесовскую статистику и не знают о существовании чисто вероятностного вывода. То, что они ищут, может быть легко обеспечено байесовскими апостериорными распределениями с использованием слегка скептических априоров.
источник
Я рассматриваю этот подход как попытку решить проблему неспособности социальной психологии воспроизвести многие ранее опубликованные «важные выводы».
Его недостатками являются:
что это не касается многих факторов, приводящих к побочным эффектам. Например,
А) Люди все еще могут посмотреть на свои данные и прекратить проводить свои исследования, когда величина эффекта кажется им достаточно большой, чтобы представлять интерес.
Б) Большие размеры эффектов все равно будут иметь большую силу при ретроспективных оценках силы.
C) Люди все еще будут ловить рыбу для получения интересных и значительных эффектов (проверяя несколько гипотез в эксперименте, а затем сообщая о появившейся гипотезе), или
D) притворяться, что неожиданный странный эффект ожидался все время.
Не следует ли прилагать усилия для решения этих проблем в первую очередь?
По мере продвижения вперед, обзор прошлых результатов будет довольно ужасным. Невозможно количественно оценить достоверность различных исследований. Если в каждом журнале реализован такой подход, у вас будет множество социологов, которые говорят, что есть доказательства для X, когда совершенно неясно, насколько правдоподобен X, и ученые спорят о том, как интерпретировать опубликованный эффект, или спорят о его важности или ценности. говоря о. Разве это не смысл иметь статистику? Чтобы обеспечить последовательный способ оценки чисел. На мой взгляд, этот новый подход вызвал бы беспорядок, если бы он был широко реализован.
Это изменение не побуждает исследователей представлять результаты исследований с небольшими размерами эффекта, поэтому оно не учитывает эффект «папки с файлами» (или они собираются публиковать результаты с большими n независимо от размера эффекта?). Если бы мы опубликовали все результаты тщательно разработанных исследований, то, хотя правдоподобие результатов отдельных исследований может быть неопределенным, метаанализ и обзоры исследований, которые предоставили статистический анализ, сделали бы намного лучшую работу по выявлению истины.
источник
Я натолкнулся на замечательную цитату, которая почти доказывает одну и ту же мысль, но не совсем - поскольку это вступительный абзац в учебнике, который в основном посвящен статистике частых случаев и проверке гипотез.
источник