Что не так с комиксом XKCD «Частые против байесов»?

113

xkcd комический номер 1132

Этот комикс xkcd (Frequentists vs. Bayesians) высмеивает статистика, который часто приводит к ошибочным результатам.

Однако мне кажется, что его рассуждения на самом деле верны в том смысле, что они следуют стандартной методике частых исследований.

Таким образом, мой вопрос: «Правильно ли он применяет методологию частоты?»

  • Если нет: что будет правильным выводом для частых в этом сценарии? Как интегрировать «предварительные знания» об устойчивости солнца в методику частых исследований?
  • Если да, то: wtf? ;-)
repied2
источник
17
Обсуждение в блоге Гельмана: andrewgelman.com/2012/11/16808
Глен
5
Я думаю, что многое неправильно, как с точки зрения частоты, так и байесовской точки зрения. Моя самая большая критика: во-первых, значения P в конечном счете являются эвристическими и являются свойствами ряда вещей, включая статистическую проблему, данные и эксперимент. Здесь все три сильно искажены для этого конкретного вопроса. Во-вторых, «байесовский» использует теоретический подход к решению, который не обязательно должен быть байесовским. Хотя это смешно.
Момо
5
Чтобы вытащить его из области статистики ... Солнце недостаточно массивно, чтобы стать новой. КЭД, Байесовский прав. ( Солнце вместо этого станет Красным Гигантом )
Бен Брока
3
@Glen et alii, в частности, обратите внимание на ответ Рэндалла Манро Гельману: andrewgelman.com/2012/11/16808/#comment-109366
jthetzel
2
Причина, по которой статистик, занимающийся частыми исследованиями, здесь глуп, не в том, что он часто работает, а в том, что он, очевидно, знает, как работает машина, поэтому знает, что это неуместное измерение, и в любом случае делает вывод.
rvl

Ответы:

44

Основная проблема заключается в том, что первый эксперимент («Солнце ушло нова») не повторяется, что делает его крайне непригодным для методологии, основанной на частоте, которая интерпретирует вероятность как оценку того, насколько часто происходит событие, которое мы можем повторить эксперимент много раз. Напротив, байесовская вероятность интерпретируется как наша степень веры, дающая все имеющиеся предварительные знания, что делает ее пригодной для рассуждений здравого смысла об одноразовых событиях. Эксперимент с бросанием костей повторяется, но я нахожу маловероятным, чтобы любой частый человек преднамеренно игнорировал влияние первого эксперимента и был настолько уверен в значимости полученных результатов.

Хотя кажется, что автор насмехается над тем, чтобы частисты полагались на повторяющиеся эксперименты и на их недоверие к априорам, придавая непригодность экспериментальной установки методологии для частых людей, я бы сказал, что настоящей темой этого комикса является не методология для частых людей, а слепое следование неподходящей методологии в целом. Смешно это или нет, зависит от вас (для меня это так), но я думаю, что это скорее вводит в заблуждение, чем проясняет различия между двумя подходами.

Матия Пискорец
источник
1
(+1) Хорошая ссылка на это сильное и решающее предположение о повторяемости в частоте - « Статистический вывод в науке» (2000) , глава 1. (Хотя существует так много проблем, что трудно сказать, какая из них является основной )
36
Не так быстро с аргументом повторяемости ... Во-первых, эксперимент, который можно повторить, это запрос машины, а не восхода солнца. Истина этого - фиксированный, но неизвестный объект вывода. Запрашивающий эксперимент, безусловно, может быть повторен, и если бы это было еще несколько раз, стратегия часто использовалась бы разумно.
сопряженное
6
Во-вторых, ни в коем случае не следует быть слишком строгими в отношении повторяемости, чтобы частые лица не застряли в состоянии вообще ничего не выводить в неэкспериментальных ситуациях. Предположим на мгновение, что «солнце идет нова» было кандидатом. Я не физик, но мне сказали, что событие «Солнце идет нова» случается довольно часто (просто не так много здесь), так что это звучит для меня как повторение. В любом случае, люди вроде Дэвида Кокса (в «Основах статистики») с радостью говорят что-то вроде: «Рассматриваемые повторы почти всегда гипотетичны . Это само по себе не является недостатком».
сопряженное
7
Мы могли бы рассматривать Солнце как случайную выборку из совокупности солнц в параллельных вселенных, в которой мы могли бы в принципе повторить эксперимент, если бы у нас было только квантовое зеркало! ; о)
Дикран Сумчатый
2
Почему проверка на взрыв солнца не повторяется? Я проверяю каждое утро, и оно еще не взорвалось.
GKFX
27

Насколько я могу видеть, частый бит разумен настолько далеко:

Позволять H 1 H 0 H 0H0 - гипотеза о том, что солнце не взорвалось, а - гипотеза о том, что оно взорвалось . Таким образом, p-значение - это вероятность наблюдения результата (машина говорит «да») при . Предполагая, что машина правильно обнаруживает присутствие отсутствия нейтрино, тогда, если машина говорит «да» под то это потому, что машина обманывает нас в результате броска двух шестерок. Таким образом, значение p составляет 1/36, поэтому, следуя обычной квазифишеровской научной практике, частый участник отвергнет нулевую гипотезу на уровне значимости 95% .H1H0H0

Но отказ от нулевой гипотезы не означает, что вы имеете право принять альтернативную гипотезу, поэтому заключение, сделанное частыми лицами, не обосновано анализом. Тесты на гипотезы часто встречаются в воплощении идеи фальсификации (вроде), вы не можете доказать, что все верно, только опровергнуть. Поэтому, если вы хотите утверждать , вы предполагаете, что является истинным, и продолжите работу, только если вы можете показать, что не согласуется с данными. Однако это не означает, что верен, просто он выдерживает испытание и продолжает оставаться жизнеспособной гипотезой, по крайней мере, до следующего теста.H 0 H 0 H 1H1H0H0H1

Байесовский также является просто здравым смыслом, отмечая, что делать ставку нечего. Я уверен, что частые подходы, когда учитываются ложноположительные и ложноотрицательные издержки (Нейман-Пизон?), Позволят сделать тот же вывод, что и лучшая стратегия с точки зрения долгосрочной выгоды.

Подводя итог: и частик, и байесовец здесь неряшливы: частый человек, который слепо следует рецепту, не принимая во внимание соответствующий уровень значимости, ложноположительные / ложноотрицательные затраты или физику проблемы (т.е. не используя его здравый смысл) , Байесовский неаккуратен из-за того, что не указывал свои приоры в явном виде, но опять же, используя здравый смысл, примитивы, которые он использует, очевидно верны (гораздо более вероятно, что машина лежит, чем фактически взорвавшееся солнце), небрежность, возможно, проста.

Дикран Сумчатый
источник
4
Отказ от нулевой гипотезы просто означает, что наблюдение было бы маловероятным, если бы H0 были правдой. Вы не должны «принимать» H1 на этой основе, поскольку в основном говорится, что H1 должно быть истинным, потому что наблюдения были бы маловероятными, если бы H0 были правдой. Однако наблюдения также могут быть маловероятными при H1 (который игнорирует нулевой ритуал), и H1 может быть менее вероятным, чем H0 a-priori (который также игнорирует нулевой ритуал). Принятие гипотез - это скользкий путь к интерпретации теста на частоту как байесовского теста, который обычно приводит к недоразумениям в менее элементарных случаях.
Дикран Сумчатый
4
Просто наткнулся на ваш комментарий. И у меня тот же вопрос, что и у @glassy. Я хотел бы возразить против вашего комментария о том, что если ваши гипотезы охватывают все пространство событий, то есть {«Солнце ушло не нова», «Солнце не ушло нова»}, у меня возникнут трудности с пониманием вашей точки зрения, как можно отвергнуть » Солнце стало новой », которое автоматически не приведет к тому, что« Солнце не стало новой ». Объявление заявления ложным подразумевает, что его отрицание должно быть правдой. Было бы замечательно, если бы вы предоставили какой-нибудь надежный справочный текст, в котором этот момент четко объяснен, если это возможно. Мне было бы интересно узнать больше об этом.
средства к значению
3
Отказ от нулевой гипотезы не означает автоматически, что нулевая гипотеза, вероятно, ложна, просто разумно продолжить с альтернативной гипотезой. Это (отчасти) потому, что тест гипотезы часто не учитывает априорных вероятностей гипотез. Более фундаментально, что методы часто используются для присвоения вероятности истинности какой-либо конкретной гипотезы, поэтому связь между «мы можем отвергнуть нулевую гипотезу» и «нулевая гипотеза, вероятно, ложна» является полностью субъективной, поскольку Я могу видеть.
Дикран Marsupial
2
Это своего рода моя точка зрения, решение относительно того, принимаем ли мы H1, субъективно и не является необходимым следствием результата теста «отказ от H0 обычно приводит к принятию H1». Проблема в том, что информация, необходимая для принятия решения [P (H0), P (H1), P (Z | H1)], не отображается в тесте. По существу, некоторая часть этой информации частично включена в установление порогового значения, но, как правило, она неполная и часто остается неустановленной и неоправданной. Приоритеты все еще присутствуют в тестах на частоту, одинаково субъективных, но оставленных неявными - худшее из обоих миров! ; о)
Дикран Сумчатый
3
@Dikran, я думаю, что мы хорошо поняли друг друга и должны прекратить злоупотреблять секцией комментариев, но одно последнее замечание: я субъективно выбираю принять H1, если я субъективно отклоняю [amoeba-reject] H0, основываясь на моем субъективно выбранном на основе моя субъективная экспертная оценка P (H1). Сказать, что «я не обязан принимать H1 только потому, что я могу отвергнуть амебу H0», не имеет никакого лингвистического смысла. Но я согласен с тем, что «я не обязан принимать H1 только потому, что могу отклонить H0 на уровне 5%». Мое главное замечание: возможность отклонить H0 на уровне 5% отклонение . α
амеба
25

Почему этот результат кажется "неправильным"? Байесовец сказал бы, что результат кажется нелогичным, потому что у нас есть «предварительные» убеждения о том, когда взорвется солнце, и свидетельств, представленных этой машиной, недостаточно, чтобы смыть эти убеждения (в основном из-за его неопределенности из-за подбрасывание монет). Но частый человек может сделать такую ​​оценку, он просто должен сделать это в контексте данных, а не убеждения.

Настоящим источником парадокса является тот факт, что частый статистический тест не учитывает все имеющиеся данные. Там нет проблем с анализом в комиксе, но результат кажется странным, потому что мы знаем, что солнце, скорее всего, не будет взрываться в течение длительного времени. Но КАК мы это знаем? Потому что мы сделали измерения, наблюдения и симуляции, которые могут ограничивать время взрыва Солнца. Таким образом, наше полное знание должно учитывать эти измерения и данные.

В байесовском анализе это делается с помощью этих измерений для построения априора (хотя процедура для превращения измерений в априор не является четко определенной: в какой-то момент должен быть начальный априор, или же это «возмущает всех» путь вниз "). Таким образом, когда байесовский использует свой предыдущий, он действительно принимает во внимание много дополнительной информации, которой анализ p-значения часто не известен.

Таким образом, чтобы оставаться на равных, полный частый анализ проблемы должен включать те же дополнительные данные о взрыве солнца, которые используются для построения байесовского априора. Но вместо использования приоров частый человек просто увеличит вероятность, которую он использует для включения этих других измерений, и его значение p будет рассчитываться с использованием этой полной вероятности.

LL=L (машина сказала да | Солнце взорвалось) * (Все остальные данные о Солнце | Солнце взорвалось)L

Полный частый анализ, скорее всего, покажет, что вторая часть вероятности будет гораздо более сдерживающей и будет доминирующим вкладом в вычисление p-значения (потому что у нас есть много информации о солнце и ошибках в этой информации маленькие (надеюсь)).

Практически, не нужно выходить и собирать все данные, полученные за последние 500 лет, чтобы сделать расчет частых, их можно аппроксимировать как простой элемент вероятности, который кодирует неопределенность относительно того, взорвалось ли солнце или нет. Тогда это станет похожим на априор Байеса, но с философской точки зрения оно немного отличается, потому что это правдоподобие, означающее, что оно кодирует некоторые предыдущие измерения (в отличие от априора, который кодирует некоторое априорное убеждение). Этот новый термин станет частью вероятности и будет использоваться для построения доверительных интервалов (или значений p или чего-либо еще), в отличие от байесовского априора, который интегрируется для формирования достоверных интервалов или исходных данных.

GeorgeLewis
источник
1
Это должен быть принятый или получивший наибольшее количество голосов ответ.
Амелио Васкес-Рейна
11

ptTProb[Tt|H0]Tχ2p0,1/36,2/36,

Конечно, такой «частичный» подход ненаучен, так как результат вряд ли будет воспроизводимым. Как только Солнце становится сверхновым, оно остается сверхновым, поэтому детектор должен снова и снова повторять «Да». Однако повторный запуск этой машины вряд ли снова даст результат «Да». Это признается в областях, которые хотят представить себя как строгие и пытаются воспроизвести свои экспериментальные результаты ... что, насколько я понимаю, происходит с вероятностью где-то между 5% (публикация оригинальной статьи была чистой ошибкой типа I) и где-то около 30-40% в некоторых областях медицины. Люди мета-анализа могут заполнить вас лучшими цифрами, это просто шум, который время от времени встречается со мной через статистическую лозу.

Еще одна проблема с «правильной» частой точки зрения состоит в том, что бросание кубика - это наименее мощный тест, в котором мощность = уровень значимости (если не ниже; мощность 2,7% для уровня значимости 5% не может похвастаться). Теория Неймана-Пирсона для t-тестов агонирует от демонстрации того, что это UMPT, и большая часть статистической теории с высокими бровями (которую я едва понимаю, я должен признать) посвящена получению кривых мощности и нахождению условий, когда данное Тест является самым мощным в данном классе. (Кредиты: @Dikran Marsupial упомянул проблему власти в одном из комментариев.)

Я не знаю, беспокоит ли это вас, но Байесовский статистик показан здесь как парень, который не знает математики и имеет проблемы с азартными играми. Подходящий байесовский статистик постулирует предыдущее, обсуждает степень его объективности, выводит апостериор и демонстрирует, как много они узнали из данных. Ничего из этого не было сделано, поэтому байесовский процесс был упрощен так же часто, как и частый.

Эта ситуация демонстрирует классический скрининг на проблему рака (и я уверен, что биостатисты могут описать это лучше, чем я). При поиске редкого заболевания с помощью несовершенного инструмента большинство положительных результатов оказываются ложноположительными. Умные статистики знают об этом и знают, как лучше проводить дешевые и грязные проверки с более дорогими и более точными биопсиями.

Stask
источник
2
Если я правильно понимаю ваш первый абзац, вы говорите, что пороговое значение (0,05 в комиксе) установлено слишком высоким. Если бы в комиксе было пять кубиков вместо двух, вы бы приняли порог как достаточно низкий? Как вы решаете порог в любом случае?
ShreevatsaR
9
Я думал, что байесовский статистик просто учел, что шансы взрыва солнца намного, намного меньше, чем шансы лежа машины (поэтому, не обязательно невежественный игрок).
Джош
8
Более
конкретно
6
Я думаю, что суть в том, что статистик-частник следует рецепту, не думая об истинной цели анализа. Так называемый «байесовский» на самом деле не байесовский, а просто человек, использующий их здравый смысл. В научных журналах есть множество примеров слепых рецептов, поэтому мультфильм забавен.
Дикран Сумчатый
3
Отсутствие тестовой статистики не может быть проблемой, я не думаю. Тестовая статистика - это просто некоторая функция данных. Таким образом, функция тождества, то есть здесь сам элемент данных, по-видимому, работает, по крайней мере, в принципе.
сопряженная собственность
6

В этом комиксе нет ничего плохого, и причина не имеет ничего общего со статистикой. Это экономика. Если частый человек прав, Земля будет равносильна необитаемости в течение 48 часов. Значение 50 долларов будет фактически нулевым. Байесовец, признавая это, может сделать ставку, зная, что его выигрыш составляет 50 долларов в обычном случае и незначительно в случае взорвавшегося на солнце.

Тони Бойлз
источник
Это «как-то связано со статистикой», поскольку байесовская статистика явно моделирует это как «минимизацию функции потерь»;)
Фабио Бельтрамини
5

Теперь, когда ЦЕРН решил, что нейтрино не быстрее света - фронт удара электромагнитного излучения ударит по Земле до того, как будет замечено изменение нейтрино. Это будет иметь по меньшей мере (в очень краткосрочной перспективе) впечатляющие авроральные эффекты. Таким образом, тот факт, что темно, не помешает освещению неба; луна от слишком яркого сияния («Непостоянная луна» Ларри Нивена) и впечатляющие вспышки, когда искусственные спутники испарялись и сжигали себя.

В целом - возможно, неправильный тест? (И хотя, возможно, было и раньше - времени было бы недостаточно для реалистичного определения апостериорного значения.

SimonN
источник
1
Тем больше причин отвергать гипотезу о том, что солнце взорвалось. :-)
ShreevatsaR
Так что же подразумевается в конце статьи, когда авторы говорят: «нужны подтверждающие исследования»?
DWin
На самом деле, случайно вернувшись к этому, ясный вывод есть в названии. Машина определяет , прошло ли солнце. Нет вероятности ошибки при обнаружении. Бит нейтрино не имеет значения. Учитывая это, тогда статистика такова, что машина будет отвечать «нет», «нет», «нет» ... с вероятностью 1/36 ложного утверждения (да), пока одноразовое событие не завершит статистический происходит процесс - это также будет иметь вероятность 1/36 ложного сообщения (нет), если машина запрашивается в течение 8 с лишним минутных интервалов, которые требуются, чтобы стать очевидными на земле.
SimonN
4

Я согласен с @GeorgeLewis, что, возможно, преждевременно делать вывод, что подход Frequentist ошибочен - давайте просто повторно запустим детектор нейтрино еще несколько раз, чтобы собрать больше данных. Не нужно возиться с приорами.

RobertF
источник
2

Более простое замечание, которое может быть потеряно среди всех подробных ответов, заключается в том, что частый человек изображен с выводом, основанным на единственном образце. На практике вы бы никогда этого не сделали.

Для получения правильного заключения требуется статистически значимый размер выборки (или, другими словами, наука должна быть повторяемой). Таким образом, на практике частый пользователь запускает машину несколько раз, а затем приходит к выводу о полученных данных.

Предположительно, это повлечет за собой повторение одного и того же вопроса на машине еще несколько раз. И, по-видимому, если машина ошибается только 1 раз в 36 раз, появится четкая картина. И из этого паттерна (а не из одного единственного чтения) частый человек сделает (я бы сказал, достаточно точный) вывод о том, взорвалось ли солнце.

aroth
источник
4
Что вы подразумеваете под «статистически значимым размером выборки»?
Момо
@Momo - это больше, чем один образец, это точно. Неверно наблюдать невероятный результат, а затем делать выводы о том, что невероятное произошло, без повторения наблюдения, чтобы убедиться, что это не случайность. Если вам нужно точное число, представляющее статистически значимый размер выборки, или алгоритм для определения точного числа, возможно, статистик может предоставить его; но я не статистика.
aroth
3
Я не думаю, что есть особая проблема с размером выборки 1, проблема в том, что у теста нет статистической силы (т. Е. Тест никогда не отвергнет нулевую гипотезу, если она ложна). Тем не менее, это обнаруживает проблему с «нулевым ритуалом», освещаемым в статье, которая игнорирует вопрос статистической мощности (и что такое H1 на самом деле, или предшествующую информацию, относящуюся к проблеме).
Дикран Marsupial
1
@Dikran Это один из лучших возможных ответов! Проблема с «частотой» в мультфильме заключается в том, что соблюдается определенный статистический ритуал без предварительной оценки свойств теста. (Можно даже расширить ваш анализ, рассмотрев, какой должна быть соответствующая функция потерь для этого решения.) Таким образом, карикатура аккуратно вертит всех людей, которые используют статистические процедуры, не понимая их или не проверяя свои предположения.
whuber
2

Ответ на твой вопрос: «Правильно ли он применяет методологию частоты?» нет, он не применял именно частый подход. Значение p для этой проблемы не совсем 1/36.

Сначала мы должны отметить, что гипотезы

H0: Солнце не взорвалось,

H1: Солнце взорвалось.

Затем,

p-значение = P («машина возвращает да» | Солнце не взорвалось).

Чтобы вычислить эту вероятность, мы должны отметить, что «машина возвращает да» эквивалентно «детектору нейтрино измеряет взрывающееся Солнце И говорит истинный результат ИЛИ детектор нейтрино не измеряет взрывающееся Солнце И лжет нам».

Предполагая, что бросание игральных костей не зависит от измерения детектора нейтрино, мы можем вычислить значение p, определив:

p0 = P («детектор нейтрино измеряет взрывающееся Солнце» | Солнце не взорвалось),

Тогда р-значение

р-значение = р0 х 35/36 + (1-р0) х 1/36 = (1/36) х (1+ 34 х р0).

Для этой проблемы значение p является числом между 1/36 и 35/36. Значение p равно 1/36 тогда и только тогда, когда p0 = 0. То есть скрытое предположение в этом мультфильме состоит в том, что детекторная машина никогда не будет измерять взрывающееся Солнце, если Солнце не взорвалось.

Кроме того, гораздо больше информации должно быть включено в вероятность внешних доказательств происходящего взрыва ановой волны.

Всего наилучшего.

Александр патриота
источник
1

Я не вижу никаких проблем с подходом частых. Если нулевая гипотеза отклонена, значение p является вероятностью ошибки типа 1. Ошибка типа 1 отвергает истинную нулевую гипотезу. В этом случае мы имеем p-значение 0,028. Это означает, что среди всех проверок гипотез с таким значением p, когда-либо проведенных, примерно 3 из ста отвергнут истинную нулевую гипотезу. По построению это будет один из таких случаев. Частые участники признают, что иногда они отвергают истинную нулевую гипотезу или сохраняют ложную нулевую гипотезу (ошибки типа 2), они никогда не заявляли об обратном. Более того, они точно определяют количество ошибочных выводов в долгосрочной перспективе.

Возможно, менее запутанным взглядом на этот результат является обмен ролями гипотез. Поскольку две гипотезы просты, это легко сделать. Если ноль в том, что солнце стало новой, тогда значение p равно 35/36 = 0,972. Это означает, что это не является доказательством против гипотезы о том, что Солнце стало новой, поэтому мы не можем отклонить его, основываясь на этом результате. Это кажется более разумным. Если вы думаете. Зачем кому-то предполагать, что солнце стало новой? Я хотел бы попросить вас. Зачем кому-то проводить такой эксперимент, если сама мысль о взрывающемся солнце кажется нелепой?

Я думаю, это просто показывает, что нужно заранее оценить полезность эксперимента. Этот эксперимент, например, был бы совершенно бесполезным, потому что он проверяет то, что мы уже знаем, просто глядя на небо (что, я уверен, дает p-значение, которое фактически равно нулю). Разработка хорошего эксперимента - это требование для создания хорошей науки. Если ваш эксперимент плохо спланирован, то независимо от того, какой инструмент статистического вывода вы используете, ваши результаты вряд ли будут полезны.

Хосе Гармилла
источник
Конечно, но байесовский может все же сделать разумный вывод с данными данных / результатами эксперимента . Иногда вы не можете повторить эксперимент или спроектировать его так, как хотите.
Амелио Васкес-Рейна
Это справедливо, байесовский вывод может легко включать предыдущий опыт, который затрудняет получение статистических весов для экстраординарных результатов (он защищает нас от статистических случайностей). Тем не менее, это также бесполезный эксперимент в байесовской системе. Предыдущее настолько сильно поддерживает один вывод, что никакой результат в этом эксперименте не может его изменить. Если приор такой сильный. Зачем проводить эксперимент без шансов изменить его? При рассмотрении слабых априорных значений (которые, вероятно, будут изменены данными), я думаю, что байесовский и частотный методы обычно дают «сопоставимые» результаты.
Хосе Гармилла
0

Как интегрировать «предварительные знания» об устойчивости солнца в методику частых исследований?

Очень интересная тема.

Вот только некоторые мысли, а не идеальный анализ ...

Использование байесовского подхода с неинформативным априором обычно дает статистический вывод, сравнимый с частым.

Почему Байесовская церковь твердо верит, что солнце не взорвалось? Потому что он, как и все, знает, что солнце никогда не взорвалось с самого начала.

На некоторых простых статистических моделях с сопряженными априорами мы можем видеть, что использование предварительного распределения эквивалентно использованию апостериорного распределения, полученного из неинформативного предварительного и предварительного экспериментов.

Приведенное выше предложение предполагает, что Frequentist должен заключить как байесовский, включив результаты предварительных экспериментов в свою модель. И это то, что на самом деле делает байесовский : его предшественник основан на его знании предварительных экспериментов!

Nxiixiθxixi=1i=1,,N

N+1xiy={Yes}Pr(xN+1=0)θ x 1 , , x N y 1 N y = { Да } θ θθθx1,,xNy1Ny={Yes}θ, И Байесовский намерен отразить эту информацию в своем предыдущем распространении о .θ

С этой точки зрения я не вижу, как перефразировать вопрос с точки зрения проверки гипотез. Принятие не имеет смысла, потому что это возможная проблема эксперимента в моей интерпретации, а не гипотеза истинного / ложного. Может быть, это ошибка Frequentist?H0={the sun has not exploded}

Стефан Лоран
источник
В отрывке «... он, как и все другие, знает, что солнце никогда не взрывалось с самого начала», напоминает историю о недавнем американском празднике, в котором потребляются миллионы индеек ( Meleagris gallopavo ). Время идет, каждый день любая разумная индейка "знает как все", что ее будут кормить и заботиться, вплоть до того рокового (и совершенно неожиданного для нее) дня в середине ноября! Точно так же наша уверенность в стабильности Солнца должна быть низкой, если все, на что мы должны были полагаться, - это сравнительно короткая история наблюдений за ним со стороны человека.
whuber
@whuber Я бы предпочел отправить вам это сообщение в частном порядке. Есть ли связь между вашим комментарием и темой обсуждения? Я не знаю, делает ли я меня идеями, но я уже несколько раз чувствовал, что вы комментируете мои ответы в основном, чтобы что-то сказать против моих ответов. Упражнение, представленное ОП, является интерпретацией карикатуры, и я чувствую, что вы критикуете мой ответ, как если бы я говорил о реальной проблеме. Недавно я не оценил и до сих пор не понял, почему вы вызвали вероятное "намерение" за моими ответами.
Стефан Лоран
Там не было никакой критики, подразумеваемой или намеренной: иногда комментарий действительно просто ... комментарий. Он попытался выделить (таким образом, чтобы это было смешно) важные вопросы, на которые намекали, но которые не были учтены в вашем ответе. Мне жаль, что вы воспринимаете это как личное или как нападение. Кстати, это является реальным вопросом: он просит Как интегрировать «предварительные знания» ... в методологии частотной? Этот вопрос вызывает критику Юма индуктивного вывода и касается вопросов философии науки, а также самих основ статистики. Об этом стоит подумать!
whuber
Возможно, стоит также отметить, что значительная часть вашей репутации обусловлена ​​моими голосами за ваши ответы, которые я предлагаю в качестве вещественного доказательства того, что с моей стороны нет систематического поведения в отношении вас.
whuber
2
Нет, я понимаю ваш комментарий. Французский перевод вашего комментария Google уже странный, но, совмещая мои навыки английского и странные переводы Google, я могу получить правильный перевод. Я буду более расслабленным в следующем месяце, вероятно.
Стефан Лоран
0

Это, конечно, тест уровня 0,05 для частого участника - нулевая гипотеза отклоняется менее чем в 5% случаев при нулевой гипотезе, и даже сила альтернативы велика.

С другой стороны, предварительная информация говорит нам, что восходящая сверхновая Солнца в определенный момент времени довольно маловероятна, но случайное получение лжи случайно.

Итог: в комиксе нет ничего плохого, и это показывает, что проверка неправдоподобных гипотез приводит к высокой вероятности ложных открытий. Кроме того, вы, вероятно, хотите принять во внимание предварительную информацию при оценке предлагаемых ставок - поэтому байесовский апостериор в сочетании с анализом решений так популярен.

Бьерн
источник
-2

На мой взгляд, более правильный анализ часто встречается так: H0: Солнце взорвалось, и машина говорит правду. H1: Солнце не взорвалось и машина врет.

Здесь значение p = P (взорвалось солнце). р (машина говорит правду) = 0,97. П (взорвалось солнце)

Статистик не может ничего сделать, не зная природу второй вероятности.

Хотя мы знаем, что P (взорвавшееся солнце) равно 0, потому что звезды, подобные солнцу, не взрываются в сверхновые.

Чайтанья Ананд
источник