Этот комикс xkcd (Frequentists vs. Bayesians) высмеивает статистика, который часто приводит к ошибочным результатам.
Однако мне кажется, что его рассуждения на самом деле верны в том смысле, что они следуют стандартной методике частых исследований.
Таким образом, мой вопрос: «Правильно ли он применяет методологию частоты?»
- Если нет: что будет правильным выводом для частых в этом сценарии? Как интегрировать «предварительные знания» об устойчивости солнца в методику частых исследований?
- Если да, то: wtf? ;-)
bayesian
frequentist
repied2
источник
источник
Ответы:
Основная проблема заключается в том, что первый эксперимент («Солнце ушло нова») не повторяется, что делает его крайне непригодным для методологии, основанной на частоте, которая интерпретирует вероятность как оценку того, насколько часто происходит событие, которое мы можем повторить эксперимент много раз. Напротив, байесовская вероятность интерпретируется как наша степень веры, дающая все имеющиеся предварительные знания, что делает ее пригодной для рассуждений здравого смысла об одноразовых событиях. Эксперимент с бросанием костей повторяется, но я нахожу маловероятным, чтобы любой частый человек преднамеренно игнорировал влияние первого эксперимента и был настолько уверен в значимости полученных результатов.
Хотя кажется, что автор насмехается над тем, чтобы частисты полагались на повторяющиеся эксперименты и на их недоверие к априорам, придавая непригодность экспериментальной установки методологии для частых людей, я бы сказал, что настоящей темой этого комикса является не методология для частых людей, а слепое следование неподходящей методологии в целом. Смешно это или нет, зависит от вас (для меня это так), но я думаю, что это скорее вводит в заблуждение, чем проясняет различия между двумя подходами.
источник
Насколько я могу видеть, частый бит разумен настолько далеко:
Позволять H 1 H 0 H 0H0 - гипотеза о том, что солнце не взорвалось, а - гипотеза о том, что оно взорвалось . Таким образом, p-значение - это вероятность наблюдения результата (машина говорит «да») при . Предполагая, что машина правильно обнаруживает присутствие отсутствия нейтрино, тогда, если машина говорит «да» под то это потому, что машина обманывает нас в результате броска двух шестерок. Таким образом, значение p составляет 1/36, поэтому, следуя обычной квазифишеровской научной практике, частый участник отвергнет нулевую гипотезу на уровне значимости 95% .H1 H0 H0
Но отказ от нулевой гипотезы не означает, что вы имеете право принять альтернативную гипотезу, поэтому заключение, сделанное частыми лицами, не обосновано анализом. Тесты на гипотезы часто встречаются в воплощении идеи фальсификации (вроде), вы не можете доказать, что все верно, только опровергнуть. Поэтому, если вы хотите утверждать , вы предполагаете, что является истинным, и продолжите работу, только если вы можете показать, что не согласуется с данными. Однако это не означает, что верен, просто он выдерживает испытание и продолжает оставаться жизнеспособной гипотезой, по крайней мере, до следующего теста.H 0 H 0 H 1H1 H0 H0 H1
Байесовский также является просто здравым смыслом, отмечая, что делать ставку нечего. Я уверен, что частые подходы, когда учитываются ложноположительные и ложноотрицательные издержки (Нейман-Пизон?), Позволят сделать тот же вывод, что и лучшая стратегия с точки зрения долгосрочной выгоды.
Подводя итог: и частик, и байесовец здесь неряшливы: частый человек, который слепо следует рецепту, не принимая во внимание соответствующий уровень значимости, ложноположительные / ложноотрицательные затраты или физику проблемы (т.е. не используя его здравый смысл) , Байесовский неаккуратен из-за того, что не указывал свои приоры в явном виде, но опять же, используя здравый смысл, примитивы, которые он использует, очевидно верны (гораздо более вероятно, что машина лежит, чем фактически взорвавшееся солнце), небрежность, возможно, проста.
источник
Почему этот результат кажется "неправильным"? Байесовец сказал бы, что результат кажется нелогичным, потому что у нас есть «предварительные» убеждения о том, когда взорвется солнце, и свидетельств, представленных этой машиной, недостаточно, чтобы смыть эти убеждения (в основном из-за его неопределенности из-за подбрасывание монет). Но частый человек может сделать такую оценку, он просто должен сделать это в контексте данных, а не убеждения.
Настоящим источником парадокса является тот факт, что частый статистический тест не учитывает все имеющиеся данные. Там нет проблем с анализом в комиксе, но результат кажется странным, потому что мы знаем, что солнце, скорее всего, не будет взрываться в течение длительного времени. Но КАК мы это знаем? Потому что мы сделали измерения, наблюдения и симуляции, которые могут ограничивать время взрыва Солнца. Таким образом, наше полное знание должно учитывать эти измерения и данные.
В байесовском анализе это делается с помощью этих измерений для построения априора (хотя процедура для превращения измерений в априор не является четко определенной: в какой-то момент должен быть начальный априор, или же это «возмущает всех» путь вниз "). Таким образом, когда байесовский использует свой предыдущий, он действительно принимает во внимание много дополнительной информации, которой анализ p-значения часто не известен.
Таким образом, чтобы оставаться на равных, полный частый анализ проблемы должен включать те же дополнительные данные о взрыве солнца, которые используются для построения байесовского априора. Но вместо использования приоров частый человек просто увеличит вероятность, которую он использует для включения этих других измерений, и его значение p будет рассчитываться с использованием этой полной вероятности.
LL=L (машина сказала да | Солнце взорвалось) * (Все остальные данные о Солнце | Солнце взорвалось)L
Полный частый анализ, скорее всего, покажет, что вторая часть вероятности будет гораздо более сдерживающей и будет доминирующим вкладом в вычисление p-значения (потому что у нас есть много информации о солнце и ошибках в этой информации маленькие (надеюсь)).
Практически, не нужно выходить и собирать все данные, полученные за последние 500 лет, чтобы сделать расчет частых, их можно аппроксимировать как простой элемент вероятности, который кодирует неопределенность относительно того, взорвалось ли солнце или нет. Тогда это станет похожим на априор Байеса, но с философской точки зрения оно немного отличается, потому что это правдоподобие, означающее, что оно кодирует некоторые предыдущие измерения (в отличие от априора, который кодирует некоторое априорное убеждение). Этот новый термин станет частью вероятности и будет использоваться для построения доверительных интервалов (или значений p или чего-либо еще), в отличие от байесовского априора, который интегрируется для формирования достоверных интервалов или исходных данных.
источник
Конечно, такой «частичный» подход ненаучен, так как результат вряд ли будет воспроизводимым. Как только Солнце становится сверхновым, оно остается сверхновым, поэтому детектор должен снова и снова повторять «Да». Однако повторный запуск этой машины вряд ли снова даст результат «Да». Это признается в областях, которые хотят представить себя как строгие и пытаются воспроизвести свои экспериментальные результаты ... что, насколько я понимаю, происходит с вероятностью где-то между 5% (публикация оригинальной статьи была чистой ошибкой типа I) и где-то около 30-40% в некоторых областях медицины. Люди мета-анализа могут заполнить вас лучшими цифрами, это просто шум, который время от времени встречается со мной через статистическую лозу.
Еще одна проблема с «правильной» частой точки зрения состоит в том, что бросание кубика - это наименее мощный тест, в котором мощность = уровень значимости (если не ниже; мощность 2,7% для уровня значимости 5% не может похвастаться). Теория Неймана-Пирсона для t-тестов агонирует от демонстрации того, что это UMPT, и большая часть статистической теории с высокими бровями (которую я едва понимаю, я должен признать) посвящена получению кривых мощности и нахождению условий, когда данное Тест является самым мощным в данном классе. (Кредиты: @Dikran Marsupial упомянул проблему власти в одном из комментариев.)
Я не знаю, беспокоит ли это вас, но Байесовский статистик показан здесь как парень, который не знает математики и имеет проблемы с азартными играми. Подходящий байесовский статистик постулирует предыдущее, обсуждает степень его объективности, выводит апостериор и демонстрирует, как много они узнали из данных. Ничего из этого не было сделано, поэтому байесовский процесс был упрощен так же часто, как и частый.
Эта ситуация демонстрирует классический скрининг на проблему рака (и я уверен, что биостатисты могут описать это лучше, чем я). При поиске редкого заболевания с помощью несовершенного инструмента большинство положительных результатов оказываются ложноположительными. Умные статистики знают об этом и знают, как лучше проводить дешевые и грязные проверки с более дорогими и более точными биопсиями.
источник
В этом комиксе нет ничего плохого, и причина не имеет ничего общего со статистикой. Это экономика. Если частый человек прав, Земля будет равносильна необитаемости в течение 48 часов. Значение 50 долларов будет фактически нулевым. Байесовец, признавая это, может сделать ставку, зная, что его выигрыш составляет 50 долларов в обычном случае и незначительно в случае взорвавшегося на солнце.
источник
Теперь, когда ЦЕРН решил, что нейтрино не быстрее света - фронт удара электромагнитного излучения ударит по Земле до того, как будет замечено изменение нейтрино. Это будет иметь по меньшей мере (в очень краткосрочной перспективе) впечатляющие авроральные эффекты. Таким образом, тот факт, что темно, не помешает освещению неба; луна от слишком яркого сияния («Непостоянная луна» Ларри Нивена) и впечатляющие вспышки, когда искусственные спутники испарялись и сжигали себя.
В целом - возможно, неправильный тест? (И хотя, возможно, было и раньше - времени было бы недостаточно для реалистичного определения апостериорного значения.
источник
Я согласен с @GeorgeLewis, что, возможно, преждевременно делать вывод, что подход Frequentist ошибочен - давайте просто повторно запустим детектор нейтрино еще несколько раз, чтобы собрать больше данных. Не нужно возиться с приорами.
источник
Более простое замечание, которое может быть потеряно среди всех подробных ответов, заключается в том, что частый человек изображен с выводом, основанным на единственном образце. На практике вы бы никогда этого не сделали.
Для получения правильного заключения требуется статистически значимый размер выборки (или, другими словами, наука должна быть повторяемой). Таким образом, на практике частый пользователь запускает машину несколько раз, а затем приходит к выводу о полученных данных.
Предположительно, это повлечет за собой повторение одного и того же вопроса на машине еще несколько раз. И, по-видимому, если машина ошибается только 1 раз в 36 раз, появится четкая картина. И из этого паттерна (а не из одного единственного чтения) частый человек сделает (я бы сказал, достаточно точный) вывод о том, взорвалось ли солнце.
источник
Ответ на твой вопрос: «Правильно ли он применяет методологию частоты?» нет, он не применял именно частый подход. Значение p для этой проблемы не совсем 1/36.
Сначала мы должны отметить, что гипотезы
H0: Солнце не взорвалось,
H1: Солнце взорвалось.
Затем,
p-значение = P («машина возвращает да» | Солнце не взорвалось).
Чтобы вычислить эту вероятность, мы должны отметить, что «машина возвращает да» эквивалентно «детектору нейтрино измеряет взрывающееся Солнце И говорит истинный результат ИЛИ детектор нейтрино не измеряет взрывающееся Солнце И лжет нам».
Предполагая, что бросание игральных костей не зависит от измерения детектора нейтрино, мы можем вычислить значение p, определив:
p0 = P («детектор нейтрино измеряет взрывающееся Солнце» | Солнце не взорвалось),
Тогда р-значение
р-значение = р0 х 35/36 + (1-р0) х 1/36 = (1/36) х (1+ 34 х р0).
Для этой проблемы значение p является числом между 1/36 и 35/36. Значение p равно 1/36 тогда и только тогда, когда p0 = 0. То есть скрытое предположение в этом мультфильме состоит в том, что детекторная машина никогда не будет измерять взрывающееся Солнце, если Солнце не взорвалось.
Кроме того, гораздо больше информации должно быть включено в вероятность внешних доказательств происходящего взрыва ановой волны.
Всего наилучшего.
источник
Я не вижу никаких проблем с подходом частых. Если нулевая гипотеза отклонена, значение p является вероятностью ошибки типа 1. Ошибка типа 1 отвергает истинную нулевую гипотезу. В этом случае мы имеем p-значение 0,028. Это означает, что среди всех проверок гипотез с таким значением p, когда-либо проведенных, примерно 3 из ста отвергнут истинную нулевую гипотезу. По построению это будет один из таких случаев. Частые участники признают, что иногда они отвергают истинную нулевую гипотезу или сохраняют ложную нулевую гипотезу (ошибки типа 2), они никогда не заявляли об обратном. Более того, они точно определяют количество ошибочных выводов в долгосрочной перспективе.
Возможно, менее запутанным взглядом на этот результат является обмен ролями гипотез. Поскольку две гипотезы просты, это легко сделать. Если ноль в том, что солнце стало новой, тогда значение p равно 35/36 = 0,972. Это означает, что это не является доказательством против гипотезы о том, что Солнце стало новой, поэтому мы не можем отклонить его, основываясь на этом результате. Это кажется более разумным. Если вы думаете. Зачем кому-то предполагать, что солнце стало новой? Я хотел бы попросить вас. Зачем кому-то проводить такой эксперимент, если сама мысль о взрывающемся солнце кажется нелепой?
Я думаю, это просто показывает, что нужно заранее оценить полезность эксперимента. Этот эксперимент, например, был бы совершенно бесполезным, потому что он проверяет то, что мы уже знаем, просто глядя на небо (что, я уверен, дает p-значение, которое фактически равно нулю). Разработка хорошего эксперимента - это требование для создания хорошей науки. Если ваш эксперимент плохо спланирован, то независимо от того, какой инструмент статистического вывода вы используете, ваши результаты вряд ли будут полезны.
источник
Очень интересная тема.
Вот только некоторые мысли, а не идеальный анализ ...
Использование байесовского подхода с неинформативным априором обычно дает статистический вывод, сравнимый с частым.
Почему Байесовская церковь твердо верит, что солнце не взорвалось? Потому что он, как и все, знает, что солнце никогда не взорвалось с самого начала.
На некоторых простых статистических моделях с сопряженными априорами мы можем видеть, что использование предварительного распределения эквивалентно использованию апостериорного распределения, полученного из неинформативного предварительного и предварительного экспериментов.
Приведенное выше предложение предполагает, что Frequentist должен заключить как байесовский, включив результаты предварительных экспериментов в свою модель. И это то, что на самом деле делает байесовский : его предшественник основан на его знании предварительных экспериментов!
С этой точки зрения я не вижу, как перефразировать вопрос с точки зрения проверки гипотез. Принятие не имеет смысла, потому что это возможная проблема эксперимента в моей интерпретации, а не гипотеза истинного / ложного. Может быть, это ошибка Frequentist?H0={the sun has not exploded}
источник
Это, конечно, тест уровня 0,05 для частого участника - нулевая гипотеза отклоняется менее чем в 5% случаев при нулевой гипотезе, и даже сила альтернативы велика.
С другой стороны, предварительная информация говорит нам, что восходящая сверхновая Солнца в определенный момент времени довольно маловероятна, но случайное получение лжи случайно.
Итог: в комиксе нет ничего плохого, и это показывает, что проверка неправдоподобных гипотез приводит к высокой вероятности ложных открытий. Кроме того, вы, вероятно, хотите принять во внимание предварительную информацию при оценке предлагаемых ставок - поэтому байесовский апостериор в сочетании с анализом решений так популярен.
источник
На мой взгляд, более правильный анализ часто встречается так: H0: Солнце взорвалось, и машина говорит правду. H1: Солнце не взорвалось и машина врет.
Здесь значение p = P (взорвалось солнце). р (машина говорит правду) = 0,97. П (взорвалось солнце)
Статистик не может ничего сделать, не зная природу второй вероятности.
Хотя мы знаем, что P (взорвавшееся солнце) равно 0, потому что звезды, подобные солнцу, не взрываются в сверхновые.
источник