Я очень плохо знаком со статистикой, и я только учусь понимать основы, включая . Но сейчас у меня в голове огромный вопросительный знак, и я надеюсь, что мое понимание неверно. Вот мой мыслительный процесс:
Разве все исследования в мире не похожи на обезьян в «теореме о бесконечной обезьяне»? Учтите, что в мире насчитывается 23887 университетов. Если в каждом университете 1000 студентов, это 23 миллиона студентов в год.
Предположим, что каждый год каждый студент проводит хотя бы одно исследование, используя тестирование гипотез с .
Не значит ли это, что даже если все исследовательские образцы были взяты из случайной популяции, около 5% из них «отклонили бы нулевую гипотезу как недействительную». Ух ты. Подумай об этом. Это около миллиона научных работ в год, публикуемых из-за «значительных» результатов.
Если это так, то это страшно. Это означает, что большая часть «научной истины», которую мы считаем само собой разумеющимся, основана на чистой случайности.
Простой кусок кода R, кажется, поддерживает мое понимание:
library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]
Так же в этой статье об успешном -fishing: Я Дурачить миллионы в Думая шоколад способствует потере веса. Вот как .
Это действительно все, что нужно? Так ли должна работать наука?
Ответы:
Это, безусловно, серьезная проблема, но это не совсем верно.
Если проведено 1 000 000 исследований и все нулевые гипотезы верны, то приблизительно 50 000 будут иметь значительные результаты при р <0,05. Вот что означает значение ap. Тем не менее, ноль по сути никогда не является строго истинным. Но даже если мы ослабим это значение до «почти правдивого» или «примерно правильного» или чего-то подобного, это будет означать, что 1 000 000 исследований должны быть посвящены таким вещам, как
и так далее. Бред какой то.
Одна проблема, конечно, в том, что мы не знаем, какие нули являются правдой. Другая проблема - та, о которой @Glen_b упомянул в своем комментарии - проблема с ящиком файлов.
Вот почему мне так нравятся идеи Роберта Абельсона, которые он выдвигает в « Статистике как принципиальный аргумент» . То есть статистические данные должны быть частью принципиального аргумента относительно того, почему что-то происходит, и должны оцениваться по критериям MAGIC:
источник
Помните, что ученые критически НЕ похожи на бесконечных обезьян, потому что их исследовательское поведение - особенно эксперименты - совсем не случайно. Эксперименты - это (по крайней мере, предполагается) невероятно тщательно контролируемые манипуляции и измерения, основанные на механически обоснованных гипотезах, основанных на большом количестве предыдущих исследований. Это не просто случайные снимки в темноте (или обезьяньи пальцы на пишущих машинках).
Эта оценка количества опубликованных результатов исследований должна быть далека. Я не знаю, есть ли в мире 23 миллиона «студентов университетов» (в том числе университетов или колледжей?), Но я знаю, что подавляющее большинство из них никогда не публикуют никаких научных результатов. Я имею в виду, что большинство из них не являются специалистами по науке, и даже большинство специалистов по науке никогда не публикуют результаты.
Более вероятная оценка (некоторое обсуждение ) количества научных публикаций в год составляет около 1-2 миллионов.
Имейте в виду, что не во всех опубликованных исследованиях есть статистика, значимость которой соответствует значению р = 0,05. Часто можно увидеть значения р, такие как р <0,01 или даже р <0,001. Конечно, я не знаю, что такое «среднее» значение p - более миллиона бумаг.
Кроме того, имейте в виду, ученые действительно не должны брать небольшое количество результатов при р около 0,05 , как «научной истины». Даже не близко. Предполагается, что ученые объединяют многие исследования, каждое из которых обладает соответствующей статистической мощностью, вероятным механизмом, воспроизводимостью, величиной эффекта и т. Д., И включают это в предварительную модель того, как работает какое-то явление.
Но значит ли это, что почти вся наука верна? Ни за что. Ученые - люди, и они становятся жертвами предубеждений, плохой методологии исследования (включая неправильные статистические подходы), мошенничества, простой человеческой ошибки и неудачи. Вероятно, более доминирующим в том, почему здоровая часть опубликованной науки ошибочна, являются эти факторы, а не конвенция p <0,05. На самом деле, давайте просто перейдем прямо к этой погоне и сделаем еще более «пугающее» утверждение, чем то, что вы выдвинули:
Почему большинство опубликованных результатов исследований являются ложными
источник
См., Например, это недавнее обсуждение статьи 2014 года Дэвида Колкухуна: « Путаница с частотой ложных открытий и многократным тестированием» (Colquhoun 2014) . Я спорил против этой оценки «по крайней мере 30%», но я согласен, что в некоторых областях исследований уровень ложных открытий может быть намного выше, чем 5%. Это действительно беспокоит.
Я не думаю, что высказывание о том, что null почти никогда не соответствует действительности, помогает здесь; Ошибки типа S и типа M (представленные Эндрю Гельманом) не намного лучше ошибок типа I / II.
Я думаю, что это на самом деле означает, что нельзя доверять изолированному «значительному» результату.
источник
Ваша забота - это именно та забота, которая лежит в основе сегодняшней дискуссии в науке о воспроизводимости. Однако истинное положение дел немного сложнее, чем вы предполагаете.
Во-первых, давайте установим некоторую терминологию. Тестирование значимости нулевой гипотезы можно понимать как проблему обнаружения сигнала - нулевая гипотеза является либо истинной, либо ложной, и вы можете либо отклонить ее, либо оставить ее без изменений. Сочетание двух решений и двух возможных «истинных» состояний дел приводит к следующей таблице, которую большинство людей видят в какой-то момент, когда они впервые изучают статистику:
Ученые, которые используют тестирование значимости нулевой гипотезы, пытаются максимизировать количество правильных решений (показано синим цветом) и минимизировать количество неправильных решений (показано красным). Работающие ученые также пытаются опубликовать свои результаты, чтобы они могли получить работу и продвинуться по карьерной лестнице.
Смещение публикации
Исследователь степеней свободы
Важно отметить, что неправильное использование степеней свободы исследователя (которое иногда называют сомнительной исследовательской практикой; Martinson, Anderson, & de Vries, 2005 ) - это не то же самое, что составление данных. В некоторых случаях исключение выбросов является правильным решением либо из-за отказа оборудования, либо по какой-либо другой причине. Ключевой вопрос заключается в том, что при наличии степеней свободы исследователя решения, принимаемые в ходе анализа, часто зависят от того, как получаются данные ( Gelman & Loken, 2014), даже если исследователи не знают об этом факте. Пока исследователи используют степени свободы исследователя (сознательно или неосознанно) для увеличения вероятности значительного результата (возможно, потому, что значимые результаты более «публикуемы»), наличие степеней свободы исследователя перенасыщает исследовательскую литературу ложными срабатываниями в так же, как смещение публикации.
Важным предостережением к вышеупомянутому обсуждению является то, что научные статьи (по крайней мере, в области психологии, которая является моей областью) редко состоят из отдельных результатов. Более распространенными являются множественные исследования, каждое из которых включает в себя несколько тестов - акцент делается на построение более широкого аргумента и исключение альтернативных объяснений представленных доказательств. Однако выборочное представление результатов (или наличие степеней свободы исследователя) может привести к смещению в наборе результатов так же легко, как и к одному результату. Существуют доказательства того, что результаты, представленные в документах с несколькими исследованиями, часто намного чище и сильнее, чем можно было бы ожидать, даже если бы все прогнозы этих исследований были верными ( Francis, 2013 ).
Заключение
По сути, я согласен с вашей интуицией, что проверка значимости нулевой гипотезы может пойти не так. Тем не менее, я бы сказал, что истинными виновниками, приводящими к большому количеству ложных срабатываний, являются такие процессы, как смещение публикаций и наличие степеней свободы исследователя. Действительно, многие ученые хорошо осведомлены об этих проблемах, и улучшение научной воспроизводимости является очень актуальной актуальной темой для обсуждения (например, Nosek & Bar-Anan, 2012 ; Nosek, Spies, & Motyl, 2012 ). Таким образом, вы находитесь в хорошей компании со своими проблемами, но я также думаю, что есть также причины для некоторого осторожного оптимизма.
Рекомендации
Stern, JM & Simes, RJ (1997). Предвзятость публикации: доказательства задержки публикации в когортном исследовании клинических исследовательских проектов. BMJ, 315 (7109), 640–645. http://doi.org/10.1136/bmj.315.7109.640
Дван К., Альтман Д.Г., Арнаис Д.А., Блум Дж., Чан А., Кронин Е., Уильямсон П.Р. (2008). Систематический обзор эмпирических данных о предвзятости публикаций исследования и предвзятости отчетности. PLOS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081
Розенталь Р. (1979). Проблема с файловым ящиком и допуск для нулевых результатов. Психологический вестник, 86 (3), 638–641. http://doi.org/10.1037/0033-2909.86.3.638
Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить что-либо как существенное. Психологическая наука, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632
Мартинсон, BC, Андерсон, MS, & de Vries, R. (2005). Ученые ведут себя плохо. Nature, 435, 737–738. http://doi.org/10.1038/435737a
Gelman, A. & Loken, E. (2014). Статистический кризис в науке. Американский ученый, 102, 460-465.
Фрэнсис Г. (2013). Репликация, статистическая согласованность и систематическая ошибка публикации. Журнал математической психологии, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003
Носек Б.А. и Бар-Анан Ю. (2012). Научная утопия: I. Открытие научной коммуникации. Психологическое расследование, 23 (3), 217–243. http://doi.org/10.1080/1047840X.2012.692215
Носек Б.А., Spies JR и Motyl M. (2012). Научная утопия: II. Перестройка стимулов и практики для продвижения правды над публикуемостью. Перспективы психологических наук, 7 (6), 615–631. http://doi.org/10.1177/1745691612459058
источник
Существенная проверка важного вопроса, поднятого в этом вопросе, заключается в том, что «научная истина» не основана на отдельных изолированных публикациях. Если результат достаточно интересен, это побудит других ученых продолжить изучение последствий этого результата. Эта работа будет иметь тенденцию подтверждать или опровергать первоначальный вывод. Вероятность отклонения истинной нулевой гипотезы в отдельном исследовании может составлять 1/20, но только 1/400 - два раза подряд.
Если бы ученые просто повторяли эксперименты, пока не нашли «значимость», а затем опубликовали свои результаты, проблема могла бы быть такой же большой, как предполагает ОП. Но наука работает не так, по крайней мере, за мой почти 50-летний опыт биомедицинских исследований. Кроме того, публикация редко посвящена одному «значительному» эксперименту, а скорее основана на ряде взаимосвязанных экспериментов (каждый из которых должен быть «значимым» сам по себе), которые вместе обеспечивают поддержку более широкой, предметной гипотезы.
Гораздо большая проблема исходит от ученых, которые слишком привержены своим собственным гипотезам. Затем они могут чрезмерно истолковать значение отдельных экспериментов для обоснования своих гипотез, участвовать в сомнительном редактировании данных (например, произвольно удалять выбросы) или (как я видел и помогал поймать) просто составлять данные.
Наука, однако, является в высшей степени социальным процессом, независимо от мифологии о безумных ученых, скрывающихся высоко в башнях из слоновой кости. Движение и взятие среди тысяч ученых, преследующих их интересы, основанные на том, что они узнали из работы других, является окончательной институциональной защитой от ложных срабатываний. Ложные выводы могут иногда сохраняться годами, но если проблема является достаточно важной, процесс в конечном итоге выявит ошибочные выводы.
источник
Просто чтобы добавить к обсуждению, вот интересный пост и последующее обсуждение о том, как люди обычно неправильно понимают р-значение.
Что следует сохранить в любом случае, так это то, что значение p - это всего лишь мера силы доказательств, отвергающих данную гипотезу. Значение p определенно не является жестким порогом, ниже которого что-то является «истинным» и выше которого оно происходит только по случайности. Как объяснено в посте, указанном выше:
источник
Как также указывалось в других ответах, это вызовет проблемы только в том случае, если вы собираетесь выборочно учитывать положительные результаты, когда нулевая гипотеза исключается. Вот почему ученые пишут обзорные статьи, в которых они рассматривают ранее опубликованные результаты исследований и стараются на этой основе лучше понять предмет. Тем не менее, здесь все еще остается проблема, связанная с так называемой «предвзятостью публикации», то есть ученые с большей вероятностью напишут статью о положительном результате, чем о отрицательном результате, также статья о отрицательном результате с большей вероятностью будет отклонено для публикации, чем статья о положительном результате.
Особенно в областях, где статистические тесты очень важны, будет ли это большой проблемой, область медицины является печально известным примером. Вот почему было сделано обязательным регистрировать клинические испытания до их проведения (например, здесь ). Таким образом, вы должны объяснить настройку, как будет выполняться статистический анализ и т. Д. И т. Д. До начала испытания. Ведущие медицинские журналы откажутся публиковать статьи, если испытания, о которых они сообщают, не зарегистрированы.
К сожалению, несмотря на эту меру, система работает не так хорошо .
источник
Это близко к очень важному факту о научном методе: он подчеркивает фальсификацию. Философия науки, которая является самой популярной сегодня, в качестве основы лежит концепция фальсифицируемости Карла Поппера .
Основной научный процесс, таким образом:
Любой может претендовать на любую теорию, которую хочет, в любое время. Наука признает любую теорию, которая «фальсифицируема». Наиболее буквальное значение этого слова состоит в том, что, если кому-то еще не нравится утверждение, этот человек может свободно тратить ресурсы, чтобы опровергнуть утверждение. Если вы не думаете, что носки Argyle излечивают рак, вы можете использовать свое медицинское отделение, чтобы опровергнуть его.
Поскольку этот барьер для входа монументально низок, традиционно, что «Наука» как культурная группа на самом деле не будет развлекать никакую идею, пока вы не приложите «хорошие усилия», чтобы фальсифицировать свою собственную теорию.
Принятие идей имеет тенденцию идти поэтапно. Вы можете получить свою концепцию в журнальной статье с одним исследованием и довольно низким p-значением. То, что это покупает вас, является гласностью и некоторым доверием. Если кого-то интересует ваша идея, например, если у вашей науки есть инженерные приложения, они могут захотеть использовать ее. В это время они с большей вероятностью профинансируют дополнительный раунд фальсификаций.
Этот процесс идет вперед, всегда с одним и тем же отношением: верь в то, что хочешь, но чтобы назвать это наукой, я должен иметь возможность опровергнуть это позже.
Эта низкая планка для входа - вот что позволяет ему быть таким инновационным. Так что да, существует большое количество теоретически «неправильных» журнальных статей. Однако главное в том, что каждая опубликованная статья теоретически фальсифицируется, поэтому в любой момент кто-то может потратить деньги на ее тестирование.
Это ключ: журналы содержат не только вещи, которые проходят разумный p-тест, но также содержат ключи, позволяющие другим разобрать его, если результаты окажутся ложными.
источник
Вот так много социальных наук работают. Не так много с физическими науками. Подумайте об этом: вы набрали свой вопрос на компьютере. Люди смогли построить этих сложных зверей, называемых компьютерами, используя знания физики, химии и других областей физических наук. Если бы ситуация была так плоха, как вы описываете, ни одна из электроники не сработала бы. Или подумайте о таких вещах, как масса электрона, которая известна с безумной точностью. Они проходят через миллиарды логических элементов компьютера, и ваш компьютер работает и работает годами.
ОБНОВЛЕНИЕ: Чтобы ответить на отрицательные голоса, которые я получил, я был вдохновлен, чтобы дать вам пару примеров.
Первый - из физики: Быстрицкий В.М. и др. « Измерение астрофизических S-факторов и сечений реакции p (d, γ) 3He в области сверхнизких энергий с использованием мишени из дейтерида циркония ». Физика частиц и ядер. Письма 10.7 (2013): 717-722.
Мой следующий пример из ... психологии: Паустиан-Андердал, Саманта С., Лиза Слаттери Уокер и Дэвид Дж. Вур. « Гендер и восприятие эффективности лидерства: метаанализ контекстуальных модераторов ». Журнал прикладной психологии, 2014, том. 99, № 6, 1129–1145.
Теперь, посмотрите на некоторые таблицы из бумаг и угадайте, из каких они бумаг:
Вот ответ, почему в одном случае вам нужна «классная» статистика, а в другом - нет, потому что данные либо дрянные, либо нет. Когда у вас есть хорошие данные, вам не нужно много статистики, кроме стандартных ошибок.
ОБНОВЛЕНИЕ2: @ PatrickS.Forscher сделал интересное заявление в комментарии:
Я должен не согласиться. В экономике и финансах теории вовсе не «мягкие». Вы можете случайно найти документ в этих полях и получить что-то вроде этого:
и так далее.
Это от Шервиша, Марка Дж., Тедди Сейденфельда и Джозефа Б. Кадейна. « Расширения теории ожидаемой полезности и некоторые ограничения парных сравнений ». (2003). Это выглядит мягким для вас?
Я повторяю свою точку зрения здесь, что, когда ваши теории не хороши, а данные ненадежны, вы можете использовать самую сложную математику и все же получить дерьмовый результат.
В этой статье они говорят о коммунальных услугах, концепции, как счастье и удовлетворение - абсолютно ненаблюдаемой. Это как польза иметь дом вместо еды чизбургера? Предположительно есть эта функция, где вы можете подключить «есть чизбургер» или «жить в собственном доме», и функция будет выдавать ответ в некоторых единицах. Как ни странно это звучит, но это то, на чем основана современная экномика, благодаря фон Нейману.
источник