Правила остановки влияют на связь между P-значениями и частотой ошибок, связанных с решениями. Недавняя статья Simmons et al. В 2011 году термин « степени свободы исследователей» обозначает группу поведений, которые, по их мнению, являются ответственными за многие сообщения в литературе по психологии, которые были признаны не воспроизводимыми.
Из этого поведения меня интересуют дополнительные правила остановки или необъявленные промежуточные анализы. Я описываю их влияние на уровень ошибок для моих учеников, но они, кажется, не описаны в учебниках, которые используют мои ученики (или не использовать!). В главном книжном магазине моего университета есть четырнадцать учебников по статистике, предназначенных для студентов начального уровня по различным дисциплинам, таким как биологические науки, бизнес, инженерия и т. Д. Только один из этих текстов содержал предметный указатель «последовательное тестирование», и ни один не содержал предметный указатель « правило остановки ».
Существует ли вводный учебник по статистике уровня, объясняющий проблему необязательных правил остановки?
Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить что-либо как существенное . Психологическая наука, 22 (11), 1359–1366. DOI: 10,1177 / 0956797611417632
источник
Ответы:
У вас не может быть правила остановки без некоторого представления о вашем распределении и размере эффекта - чего вы априори не знаете.
Также да, нам нужно сосредоточиться на величине эффекта - и никогда не считалось правильным рассматривать только p-значения, и мы, конечно, не должны показывать таблицы или графики, которые показывают p-значения или F-значения, а не размер эффекта.
Существуют проблемы с традиционным тестом статистического вывода гипотез (который, по словам Коэна, достоин своей аббревиатуры, и Фишер и Пирсон оба перевернулись бы в могилах, если бы увидели все, что делается сегодня под их жестко противоположными именами).
Чтобы определить N, вам необходимо уже определить целевую значимость и порог мощности, а также сделать много предположений о распределении, и, в частности, вам также необходимо определить величину эффекта, который вы хотите установить. Абсолютно верно, что это должно быть отправной точкой - какой минимальный размер эффекта будет экономически эффективным!
«Новая статистика» рекомендует показывать размеры эффекта (как парное различие, где это уместно), а также связанные стандартные отклонения или дисперсию (потому что нам нужно понять распределение), а также стандартные отклонения или доверительные интервалы (но последнее уже фиксация значения p и принятие решения о том, предсказываете ли вы направление или ставку в одну сторону). Но установление минимального эффекта для указанного знака с помощью научного прогноза проясняет это, хотя преднаучным значением по умолчанию является метод проб и ошибок и просто поиск различий. Но опять же вы сделали предположения о нормальности, если вы пойдете этим путем.
Другой подход заключается в использовании блочных графиков в качестве непараметрического подхода, но условные обозначения усов и выбросов сильно различаются и даже тогда сами по себе берут начало в предположениях распределения.
Проблема остановки действительно не является проблемой отдельного исследователя, устанавливающего или не устанавливающего N, но в том, что у нас есть целое сообщество тысяч исследователей, где 1000 намного больше, чем 1 / альфа для традиционного уровня 0,05. В настоящее время предлагается предложить предоставить сводную статистику (среднее значение, stddev, stderr - или соответствующие «непараметрические версии - медиана и т. Д., Как в случае с коробчатым графиком) для облегчения мета-анализа и представления объединенных результатов всех экспериментов, независимо от того, происходят ли они». достиг определенного уровня альфа или нет.
Тесно связана проблема множественного тестирования, которая так же чревата трудностями, и где эксперименты носят слишком упрощенный характер во имя сохранения мощности, в то время как для анализа результатов предлагаются сверхсложные методологии.
Я не думаю, что может быть глава учебника, имеющая дело с этим окончательно еще, поскольку у нас все еще есть небольшое представление о том, что мы делаем ...
На данный момент лучший подход, вероятно, заключается в том, чтобы продолжать использовать традиционную статистику, наиболее подходящую для проблемы, в сочетании с отображением сводной статистики - эффект и стандартная ошибка, а N является наиболее важным. Использование доверительных интервалов в основном эквивалентно соответствующему T-критерию, но позволяет более осмысленно сравнивать новые результаты с опубликованными, а также позволяет создать идеал, способствующий воспроизводимости, и опубликовать воспроизведенные эксперименты и мета-анализы.
С точки зрения теоретико-информационного или байесовского подходов, они используют разные инструменты и делают разные предположения, но по-прежнему не имеют ответов на все вопросы, и, в конце концов, сталкиваются с одинаковыми или худшими проблемами, потому что байесовский вывод отступает от окончательного решения ответить и просто приводит доказательства относительно предполагаемых или отсутствующих приоры.
В конце концов, у машинного обучения также есть результаты, которые нужно учитывать для значимости - часто с КИ или Т-тестом, часто с графиками, которые, скорее всего, соединяют, а не просто сравнивают, и используют версии с соответствующей компенсацией, когда распределения не совпадают. Он также имеет свои противоречия по поводу начальной загрузки и перекрестной проверки, а также смещения и дисперсии. Хуже всего то, что у него есть склонность генерировать и тестировать множество альтернативных моделей, просто путем тщательной параметризации всех алгоритмов в одном из множества наборов инструментов, примененных к наборам данных, тщательно заархивированным для проведения необузданного многократного тестирования. Хуже всего то, что он все еще находится в темных веках, используя точность, или, что еще хуже, F-меру для оценки, а не методы, исправляющие случайность.
Я прочитал десятки статей по этим вопросам, но не смог найти ничего полностью убедительного - за исключением статей с отрицательным опросом или мета-анализом, которые, кажется, указывают на то, что большинство исследователей не обрабатывают и не интерпретируют статистику должным образом в отношении какого-либо «стандарта». "старый или новый. Мощность, многократное тестирование, определение размера и ранняя остановка, интерпретация стандартных ошибок и доверительных интервалов ... это лишь некоторые из проблем.
Пожалуйста, застрелите меня - я хотел бы оказаться неправым! На мой взгляд, там много воды, но мы еще не нашли ребенка! На этом этапе ни один из экстремальных взглядов или подходов имени бренда не выглядит многообещающим как ответ, и те, кто хочет выбросить все остальное, вероятно, потеряли ребенка.
источник
Я не верю, что необязательные «правила остановки» - это технический термин в отношении оптимальной остановки. Тем не менее, я сомневаюсь, что вы найдете много углубленного обсуждения этой темы в учебниках по психологии статистики начального уровня.
Циничное обоснование этого заключается в том, что все студенты, изучающие общественные науки, имеют слабые математические навыки. Лучший ответ, ИМХО, заключается в том, что простые t-тесты не подходят для большинства социальных научных экспериментов. Нужно посмотреть на силу эффекта и выяснить, разрешает ли это различия между группами. Первый может указывать, что последний возможно, но это все, что он может сделать.
Меры расходов на социальное обеспечение, государственное регулирование и урбанизация имеют статистически значимые связи с мерами религиозного поведения. Тем не менее, просто заявив, что значение p создает тест в причинно-следственной связи "все или ничего". Смотрите следующее:
Результаты как расходов на социальное обеспечение, так и урбанизации имеют статистически значимые p-значения, но расходы на социальное обеспечение гораздо более сильно коррелируют. Эти расходы на социальное обеспечение демонстрируют такую тесную связь с другими мерами религиозности ( нерелигиозный уровень, а также комфорт в религии ), для которых урбанизация даже не достигает p-значения
< .10
, предполагая, что урбанизация не влияет на общие религиозные убеждения. Обратите внимание, однако, что даже расходы на социальное обеспечение не объясняют Ирландию или Филиппины, показывая, что некоторые другие эффекты сравнительно сильнее, чем эффект от расходов на социальное обеспечение .Опора на «правила остановки» может привести к ложным срабатываниям, особенно при небольших размерах психологии. Психология как область действительно сдерживается подобными статистическими махинациями. Однако помещать всю нашу веру в произвольное значение p также довольно глупо. Даже если бы мы все отправили наши размеры выборки и заявления о гипотезах в журнал до проведения эксперимента, мы все равно столкнулись бы с ложными срабатываниями, поскольку научные круги коллективно контролируют статистическую значимость.
Правильно не делать остановку интеллектуального анализа данных, а правильно описывать результаты в зависимости от их влияния . Теории оцениваются не только по точности их предсказаний, но и по полезности этих предсказаний. Независимо от того, насколько хороша методология исследования, препарат, который обеспечивает улучшение симптомов простуды на 1%, не стоит затрат на упаковку в капсулу.
Обновление. Чтобы быть ясным, я полностью согласен с тем, что социологи должны придерживаться более высоких стандартов: нам нужно улучшить образование, предоставить социологам лучшие инструменты и повысить уровень значимости до 3-сигма. Я пытаюсь подчеркнуть недопредставленный пункт: подавляющее большинство психологических исследований бесполезны, потому что величина эффекта очень мала.
Но с Amazon Turk я могу надлежащим образом компенсировать проведение 10 исследований на предмет parralel и поддерживать уровень достоверности> 3-сигма очень дешево. Но если сила эффекта невелика, то существуют значительные угрозы для внешней валидности. Эффект от манипуляций может быть связан с новостями, с порядком вопросов или с ....
У меня нет времени на эссе, но проблемы качества в социальных науках выходят далеко за пределы дерьмовых статистических методов.
источник
В цитируемой вами статье ничего не говорится о правилах остановки и, похоже, она мало связана с рассматриваемой проблемой. Их единственное, очень слабое отношение - это множественное тестирование, которое является статистическим , а не научным понятием.
В литературе о клинических испытаниях вы обнаружите, что правила остановки сделаны строгими с явной информацией об условиях, в которых «будет выглядеть» исследование: на основе календарного года или числа человеко-лет, установки альфа-уровня и также ограничения на эффекты для «эффективного» против «вредного» лечения. Действительно, мы должны смотреть на строгое проведение таких исследований в качестве примера хорошо выполненной науки . FDA даже пойдет так далеко, что скажет, что после значительного открытия эффективности, отличной от той, которая была указана заранее, должно быть проведено второе испытание для подтверждения этих результатов. Это остается проблемой настолько, что Томас Флемминг рекомендует, чтобы все клинические исследования валидацию с помощью совершенно независимого второго подтверждающего испытания, проводится отдельными лицами. Так плохо проблема ложноположительных ошибок при рассмотрении жизни и медицинской помощи.
С по-видимому безобидным упущением другие области науки сохранили плохую этику в исследованиях. Действительно, социальные науки не влияют на методы лечения, которые люди получают, они имеют дело с рефератами и концептуальными моделями, которые только улучшают наше понимание взаимодействия теории и наблюдения. Однако любой потребитель социальных наук, будь то ученый или ученый, часто сталкивается с противоречивыми выводами: шоколад полезен для вас, шоколад вреден для вас (кстати, шоколад полезен для вас, сахар и жир)в шоколаде это плохо для тебя), секс для тебя хорошо, брак делает тебя грустным / брак делает тебя счастливым. Сфера полна плохой науки. Даже я виновен в работе над анализами, где я был недоволен решительным языком, который затем был привязан к сильным рекомендациям относительно политики и федеральной поддержки, совершенно неоправдан, и все же он был опубликован.
Статья Симмонса эффективно описывает, как раскрытие могло бы помочь в явном указании видов «ярлыков», которые делают исследователи в социальных исследованиях. Симмонс приводит в Таблице 1 пример того, как выемка данных резко увеличивает частоту ложноположительных ошибок способом, типичным для неэтичного ученого, «ищущего результаты». Краткое изложение результатов в Таблице 2 описывает часто пропускаемые аспекты статей, которые могут значительно улучшить понимание того, как, возможно, было проведено более одного анализа.
Подводя итог, можно сказать, что правила остановки были бы уместны только с заранее определенной гипотезой: они являются этически обоснованными и требуют статистических методов. В статье Симмонса признается, что многие исследования даже не подтверждают это, и это этически несостоятельно, но статистический язык убедителен, почему именно это неправильно.
источник