Я смотрю на слайды лекций по курсу науки о данных, которые можно найти здесь:
https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf
Я, к сожалению, не вижу видео для этой лекции, и в какой-то момент на слайде у докладчика есть следующий текст:
Некоторые ключевые принципы
Думай как байесовский, проверяй как частый (примирение)
Кто-нибудь знает, что это на самом деле означает? У меня есть ощущение, что есть хорошая идея об этих двух школах мысли, которые можно извлечь из этого.
Ответы:
Основное различие между школами статистики байесовской и частичной школ объясняется различием в интерпретации вероятности. Байесовская вероятность - это утверждение о личной вере в то, что событие произошло (или произошло). Частота вероятности - это утверждение о доле подобных событий, которые происходят в пределе при увеличении числа этих событий.
Для меня «думать как байесовский» означает обновлять ваши личные убеждения по мере появления новой информации и «проверять [или беспокоиться] как частый человек» - значит интересоваться выполнением статистических процедур, агрегированных по времени их использования, например, каков охват достоверных интервалов, каков коэффициент ошибок типа I / II и т. д.
источник
Байесовская статистика суммирует убеждения, в то время как статистика частых суммирует доказательства Байесовцы рассматривают вероятность как степень веры. Этот всеобъемлющий и генеративный тип рассуждений полезен для формулирования гипотез. Например, байесовцы могут произвольно присвоить некоторую вероятность тому, что луна состоит из зеленого сыра, независимо от того, действительно ли астронавты могли туда приехать, чтобы проверить это. Эта гипотеза, возможно, подтверждается идеей, что издалека луна выглядиткак зеленый сыр. Частые участники не могут в одиночку представить себе гипотезу, которая является чем-то большим, чем просто соломенный человек, и при этом они не могут сказать, что доказательства предпочитают одну гипотезу другой. Даже максимальное правдоподобие только генерирует статистику, которая «наиболее соответствует тому, что наблюдалось». Формально байесовская статистика позволяет нам мыслить нестандартно и предлагать обоснованные идеи на основе данных. Но это строго гипотеза, порождающая в природе.
Статистика часто используется для подтверждения гипотез. Когда эксперимент проводится хорошо, статистика часто дает «независимый наблюдатель» или «эмпирический» контекст для выводов, избегая приоры. Это соответствует философии науки Карла Поппера. Точка доказательства не состоит в том, чтобы обнародовать определенную идею. Множество доказательств соответствует неверным гипотезам. Доказательства могут просто фальсифицировать убеждения.
Влияние априоров обычно рассматривается как предвзятость в статистических рассуждениях. Как вы знаете, мы можем привести множество причин, по которым все происходит. Психологически многие люди считают, что предвзятость наших наблюдателей - это следствие того, что в нашем мозгу существуют препятствия, которые мешают нам действительно взвешивать то, что мы видим. «Наблюдение облаков надежды», как сказала Преподобная Мать в Дюне. Поппер сделал эту идею строгой.
Это имело большое историческое значение в некоторых из величайших научных экспериментов нашего времени. Например, Джон Сноу тщательно собрал доказательства эпидемии холеры и сообразил, что холера не вызвана моральной депривацией, и указал, что доказательства в значительной степени соответствуют загрязнению сточных вод: обратите внимание, что он не сделал выводэто, результаты Сноу предшествовали открытию бактерий, и не было никакого механистического или этиологического понимания. Подобный дискурс можно найти в «Происхождении видов». На самом деле мы не знали, была ли сделана луна из зеленого сыра, пока астронавты не приземлились на поверхность и не собрали образцы. В этот момент байесовские авторы постов приписывали очень и очень низкую вероятность любой другой возможности, и в лучшем случае, как часто говорят специалисты, образцы очень несовместимы с чем-либо, кроме лунной пыли.
Таким образом, байесовская статистика поддается генерации гипотез, а статистика часто используется для подтверждения гипотез. Обеспечение того, чтобы данные собирались независимо в этих усилиях, является одной из самых больших проблем, с которыми сталкиваются современные статистики.
источник
Plenty of evidence is consistent with incorrect hypotheses
?Согласно
Cliff AB
комментарию к ОП, звучит так, будто они движутся к эмпирической байесовской философии. Существуют три основные байесовские школы мысли, и эмпирические байесовские оценки оценивают приоры по данным, часто с использованием частых методов. Это не совсем соответствует цитате (которая подразумевает байесовский подход, частые опасения впоследствии), но мы не должны упускать из видуCliff AB
отличный комментарий.Кроме того, была и может быть, школа байесовской мысли, что вам не нужно ничего проверять после байесовской процедуры. Более современное мышление будет использовать апостериорные прогностические проверки, и, возможно, именно такой подход проверяет ваши ответы.
Кроме того, философия частых специалистов связана с процедурами, а не с выводами из данных. Так что, возможно, это также ключ к значению цитаты.
источник
В контексте этого урока по науке о данных моя интерпретация «проверяй как частый человек» заключается в том, что ты оцениваешь эффективность своей функции прогнозирования или функции принятия решения на основании данных проверки. Совет «думать как байесовский» выражает мнение, что функция прогнозирования, полученная из байесовского подхода, в целом даст хорошие результаты.
источник
Звучит так: «Думай как байесовский, проверяй как частый человек» относится к подходу в статистическом дизайне и анализе. Насколько я понимаю, байесовское мышление включает в себя некоторое представление о предыдущих ситуациях (экспериментально или статистически), скажем, например, что средний балл по чтению для 4-х классов составляет 80 слов в минуту, и что какое-то вмешательство может увеличить это до 90 слов в минуту , Это убеждения, основанные на предыдущих исследованиях и гипотезах. Частое мышление экстраполирует результаты (вмешательства) для получения доверительных интервалов или других статистических данных, которые основаны на теоретической и практической частоте или вероятности повторения этих результатов (т. Е. Как «часто»). Например, показатель чтения после вмешательства может составлять 91 слово в минуту с 95% -ным доверительным интервалом от 85 до 97 слов в минуту, и соответствующее значение p (значение вероятности) этого значения отличается от показателя до вмешательства. Таким образом, 95% времени, новые оценки чтения будут между 85 и 97 словами в минуту после вмешательства. Поэтому «думайте как байесовский» - то есть теоретизируйте, выдвигайте гипотезы, смотрите на предыдущие данные и «проверяйте как частый» - то есть как часто бывают эти экспериментальные результаты и насколько вероятно, что они будут вызваны шанс, а не вмешательство. новые показатели чтения будут между 85 и 97 словами в минуту после вмешательства. Поэтому «думайте как байесовский» - то есть теоретизируйте, выдвигайте гипотезы, смотрите на предыдущие данные и «проверяйте как частый» - то есть как часто бывают эти экспериментальные результаты и насколько вероятно, что они будут вызваны шанс, а не вмешательство. новые показатели чтения будут между 85 и 97 словами в минуту после вмешательства. Поэтому «думайте как байесовский» - то есть теоретизируйте, выдвигайте гипотезы, смотрите на предыдущие данные и «проверяйте как частый» - то есть как часто бывают эти экспериментальные результаты и насколько вероятно, что они будут вызваны шанс, а не вмешательство.
источник