Название комментария в природе Ученые восстают против статистической значимости начинается с:
Валентин Амрейн, Сандер Гренландия, Блейк МакШейн и более 800 подписантов призывают прекратить раздутые заявления и исключить, возможно, важные последствия.
и позже содержит такие утверждения, как:
Опять же, мы не защищаем запрет на значения P, доверительные интервалы или другие статистические показатели - только то, что мы не должны относиться к ним категорически. Это включает дихотомизацию как статистически значимую или нет, а также категоризацию на основе других статистических показателей, таких как байесовские факторы.
Я думаю, что могу понять, что изображение ниже не говорит о том, что два исследования не согласны, потому что одно «исключает» никакого эффекта, а другое нет. Но статья, кажется, углубляется гораздо глубже, чем я могу понять.
К концу, кажется, есть резюме в четырех пунктах. Можно ли обобщить их в еще более простых терминах для тех из нас, кто читает статистику, а не пишет ее?
Говоря об интервалах совместимости, помните о четырех вещах.
Во-первых, просто потому, что интервал дает значения, наиболее совместимые с данными, учитывая предположения, это не означает, что значения за его пределами несовместимы; они просто менее совместимы ...
Во-вторых, не все значения внутри одинаково совместимы с данными, учитывая предположения ...
В-третьих, как и порог 0,05, из которого он получен, 95% по умолчанию, используемые для вычисления интервалов, само по себе является произвольным соглашением ...
И последнее, и самое главное, будьте скромны: оценки совместимости зависят от правильности статистических допущений, используемых для вычисления интервала ...
Ответы:
Первые три пункта, насколько я могу судить, являются вариацией одного аргумента.
Когда на самом деле, они гораздо более вероятно , будет выглядеть это :
Итак, чтобы разбить пронумерованные пункты в статье:
Распределение не является равномерным (с плоским верхом, как на первом графике), оно достигло максимума. У вас больше шансов получить значение в середине, чем на краях. Это все равно что бросить кучу кубиков, а не один кубик.
95% - произвольное ограничение и почти точно совпадает с двумя стандартными отклонениями.
Этот пункт является скорее комментарием об академической честности в целом. Во время моей докторской диссертации я осознал, что наука - это не какая-то абстрактная сила, это совокупные усилия людей, пытающихся заниматься наукой. Это люди, которые пытаются открывать для себя что-то новое во вселенной, но в то же время стараются кормить своих детей и сохранять работу, что, к сожалению, в наше время означает, что какая-то форма публикации или гибели находится в игре. На самом деле, ученые зависят от открытий, которые являются правдивыми и интересными , потому что неинтересные результаты не приводят к публикациям.
Такие практики могут быть вредными для науки в целом, особенно если это делается широко, все в погоне за числом, которое в глазах природы не имеет смысла. Эта часть фактически побуждает ученых быть честными относительно своих данных и работы, даже если эта честность наносит им ущерб.
источник
Большая часть статьи и фигуры, которые вы включаете, очень просты:
Например,
Но это - ошибка, которую авторы утверждают, что ученые обычно делают.
Например, на вашей фигуре красная линия может возникнуть в результате исследования на очень немногих мышах, в то время как синяя линия может возникнуть в результате точно такого же исследования, но на многих мышах.
источник
Я попытаюсь.
источник
источник
tl; dr - принципиально невозможно доказать, что вещи не связаны; статистические данные могут быть использованы толькочтобы показатькогда вещи будут связаны. Несмотря на этот общепризнанный факт, люди часто неверно истолковывают отсутствие статистической значимости, что подразумевает отсутствие взаимосвязи.
Хороший метод шифрования должен генерировать зашифрованный текст, который, насколько может сказать злоумышленник, не обнаруживает статистической связи с защищенным сообщением. Потому что, если злоумышленник может определить какую-то связь, он может получить информацию о ваших защищенных сообщениях, просто взглянув на зашифрованные тексты - это Плохая вещь TM .
Однако зашифрованный текст и соответствующий ему открытый текст на 100% определяют друг друга. Таким образом, даже если самые лучшие математики мира не могут найти каких-либо существенных отношений, независимо от того, как сильно они стараются, мы все равно, очевидно, знаем, что отношения не просто существуют, но что они полностью и полностью детерминированы. Этот детерминизм может существовать, даже если мы знаем, что невозможно найти отношения .
Несмотря на это, у нас все еще есть люди, которые будут делать такие вещи, как:
Выберите отношения, которые они хотят « опровергнуть ».
Проведите некоторое исследование, чтобы определить предполагаемые отношения.
Сообщить об отсутствии статистически значимых отношений.
Твист это в отсутствие отношений.
Это приводит к всевозможным « научным исследованиям », которые средства массовой информации (ложно) сообщают как опровергающие существование некоторых отношений.
Если вы хотите спроектировать свое собственное исследование, есть несколько способов сделать это:
Ленивое исследование.
, ‘‘'Non-significant' study(high P value)"
Самый простой способ - просто невероятно лениться. Это как из этой цифры, связанной в вопросе:
Вы можете легко получить это , просто имея небольшой размер выборки, позволяя много шума и других различных ленивых вещей. На самом деле, если вы так ленивы, что не собрать какие-либо данные, то вы уже сделали!
Ленивый анализ:0
По какой - то глупой причине, некоторые люди думают, коэффициент корреляции Пирсона из означает « нет корреляции ». Что правда, в очень ограниченном смысле. Но вот несколько случаев для наблюдения: . Это значит, что не может быть « линейных » отношений, но, очевидно, они могут быть более сложными. И это не обязательно должен быть комплекс " шифрования ", а скорее " это на самом деле просто волнистая линия " или " есть две корреляции " или что-то еще.
Ленивый ответ:
в духе вышесказанного я остановлюсь здесь. Чтобы, ты знаешь, быть ленивым!
Но, если серьезно, статья хорошо подытоживает:
источник
Для дидактического введения в проблему, Алекс Рейнхарт написал книгу, полностью доступную в Интернете и отредактированную в журнале No Starch Press (с большим содержанием): https://www.statisticsdonewrong.com
Он объясняет корень проблемы без сложной математики и содержит конкретные главы с примерами из смоделированного набора данных:
https://www.statisticsdonewrong.com/p-value.html
https://www.statisticsdonewrong.com/regression.html
Во второй ссылке графический пример иллюстрирует проблему p-значения. Значение P часто используется в качестве единственного показателя статистической разницы между наборами данных, но его явно недостаточно.
Изменить для более подробного ответа:
Во многих случаях исследования направлены на то, чтобы воспроизвести точный тип данных, либо физические измерения (скажем, количество частиц в ускорителе во время конкретного эксперимента), либо количественные показатели (например, количество пациентов, у которых развились определенные симптомы во время тестов на наркотики). В любой из этих ситуаций на измерение могут влиять многие факторы, такие как человеческая ошибка или изменения в системе (люди по-разному реагируют на одно и то же лекарство). По этой причине эксперименты часто проводятся сотни раз, если это возможно, и тестирование на наркотики проводится, в идеале, на когортах тысяч пациентов.
Набор данных затем сводится к его наиболее простым значениям с использованием статистики: средние значения, стандартные отклонения и так далее. Проблема при сравнении моделей по их среднему значению состоит в том, что измеренные значения являются только индикаторами истинных значений, а также статистически изменяются в зависимости от количества и точности отдельных измерений. У нас есть способы дать хорошее предположение о том, какие меры могут быть одинаковыми, а какие нет, но только с определенной уверенностью. Обычный порог состоит в том, чтобы сказать, что если у нас меньше одного из двадцати шансов ошибиться, говоря, что два значения разные, мы считаем их «статистически различными» (это означает значение ), в противном случае мы не делаем вывод.P<0.05
Это приводит к странным выводам, проиллюстрированным в статье Природы, где две одинаковые меры дают одинаковые средние значения, но выводы исследователей отличаются из-за размера выборки. Эта и другие особенности статистического словаря и привычек становятся все более и более важными в науке. Другая сторона проблемы заключается в том, что люди склонны забывать, что они используют статистические инструменты, и делают вывод об эффекте без надлежащей проверки статистической силы своих выборок.
В качестве другой иллюстрации, в последнее время социальные и жизненные науки переживают настоящий кризис репликации из-за того, что многие эффекты были восприняты как должное людьми, которые не проверяли надлежащую статистическую силу известных исследований (в то время как другие фальсифицировали данные но это еще одна проблема).
источник
Для меня самой важной частью было:
Другими словами: сделайте больший акцент на обсуждении оценок (центр и доверительный интервал) и сделайте меньший акцент на «проверке нулевой гипотезы».
Как это работает на практике? Многие исследования сводятся к измерению величины эффекта, например «Мы измерили коэффициент риска 1,20 с 95% ДИ в диапазоне от 0,97 до 1,33». Это подходящее резюме исследования. Вы можете сразу увидеть наиболее вероятный размер эффекта и неопределенность измерения. Используя это резюме, вы можете быстро сравнить это исследование с другими подобными исследованиями, и в идеале вы можете объединить все результаты в средневзвешенное значение.
К сожалению, такие исследования часто обобщаются как «Мы не обнаружили статистически значимого увеличения коэффициента риска». Это верное заключение исследования выше. Но это не подходящее резюме исследования, потому что вы не можете легко сравнить исследования, используя такие виды резюме. Вы не знаете, какое исследование имело наиболее точное измерение, и вы не можете интуитивно понять, каким может быть результат мета-исследования. И вы не сразу замечаете, когда исследования заявляют о «незначительном увеличении отношения риска», имея настолько большие доверительные интервалы, что в них можно спрятать слона.
источник
Это «значительное» , что статистикам , а не только ученые, поднимаюсь и возражая рыхлое использование «значимости» и значений. Последний выпуск The American Statistician полностью посвящен этому вопросу. Смотрите, в частности, главную статью Вассермана, Ширма и Лазаря.P
источник
Фактом является то, что по нескольким причинам p-значения действительно стали проблемой.
Однако, несмотря на свои слабые стороны, они имеют важные преимущества, такие как простота и интуитивная теория. Поэтому, хотя в целом я согласен с « Комментарии в природе» , я думаю, что вместо того, чтобы полностью исключить статистическую значимость , необходимо более сбалансированное решение. Вот несколько вариантов:
1. «Изменение порогового значения по умолчанию для статистической значимости с 0,05 до 0,005 для заявлений о новых открытиях». На мой взгляд, Бенджамин и др. Очень хорошо рассмотрели наиболее убедительные аргументы против принятия более высокого стандарта доказательств.
2. Принятие p-значений второго поколения . Похоже, это разумное решение большинства проблем, затрагивающих классические p-значения . Как говорят здесь Блюм и др. , P-значения второго поколения могут помочь «улучшить точность, воспроизводимость и прозрачность статистического анализа».
3. Пересмотреть р-значение как «количественную меру уверенности -« индекс доверия »- что наблюдаемое отношение или утверждение является истинным». Это может помочь изменить цель анализа от достижения значимости к соответствующей оценке этой уверенности.
Важно отметить, что «результаты, которые не достигают порога статистической значимости или « достоверности » (какой бы она ни была), все же могут быть важными и заслуживать публикации в ведущих журналах, если они решают важные исследовательские вопросы строгими методами».
Я думаю, что это могло бы помочь смягчить одержимость p-значениями ведущими журналами, что стоит за неправильным использованием p-значений .
источник
Одна вещь, которая не была упомянута, состоит в том, что ошибка или значимость являются статистическими оценками, а не фактическими физическими измерениями: они сильно зависят от имеющихся у вас данных и от того, как вы их обрабатываете. Вы можете предоставить точное значение ошибки и значимости, только если вы измерили каждое возможное событие. Обычно это не так, это далеко не так!
Следовательно, каждая оценка ошибки или значимости, в данном случае любого заданного значения P, по определению является неточной и не следует доверять описанию основного исследования - не говоря уже о явлениях! - точно. На самом деле, нельзя доверять ничего о результатах, БЕЗ знания того, что представляется, как оценивалась ошибка и что было сделано для контроля качества данных. Например, один из способов уменьшить предполагаемую ошибку - это удалить выбросы. Если это удаление также выполняется статистически, то как вы можете узнать, что выбросы были реальными ошибками, а не маловероятными реальными измерениями, которые должны быть включены в ошибку? Как уменьшенная ошибка может улучшить значимость результатов? Как насчет ошибочных измерений вблизи оценок? Они улучшаются ошибка и может повлиять на статистическую значимость, но может привести к неправильным выводам!
В связи с этим я занимаюсь физическим моделированием и сам создал модели, в которых ошибка 3-сигма совершенно нефизична. То есть, по статистике, есть одно событие из тысячи (ну ... чаще, чем это, но я отвлекаюсь), что привело бы к совершенно нелепой ценности. Величина 3-интервальной ошибки в моем поле примерно эквивалентна наилучшей из возможных оценок, когда 1 см время от времени оказывается метром. Тем не менее, это действительно приемлемый результат при предоставлении статистического +/- интервала, рассчитанного на основе физических, эмпирических данных в моей области. Конечно, соблюдается узость интервала неопределенности, но часто значение наилучшей оценки является более полезным результатом, даже если номинальный интервал ошибки будет больше.
Как примечание, я когда-то был лично ответственен за одного из тех, кто из тысячи посторонних. Я был в процессе калибровки инструмента, когда произошло событие, которое мы должны были измерить. Увы, эта точка данных была бы точно одной из этих 100-кратных выбросов, поэтому в некотором смысле они действительно происходят и включены в ошибку моделирования!
источник