Есть ли * математическая * основа для дебатов Байеса против частых?

67

В Википедии сказано, что:

математика [вероятности] в значительной степени не зависит от какой-либо интерпретации вероятности.

Вопрос: Тогда, если мы хотим быть математически правильными, не должны ли мы запретить какую-либо интерпретацию вероятности? Т.е. математически неверны и байесовский, и частотный?

Я не люблю философию, но мне нравится математика, и я хочу работать исключительно в рамках аксиом Колмогорова. Если это моя цель, следует ли из того, что в Википедии написано, что я должен отвергнуть как байесианство, так и частоту? Если понятия чисто философские и вовсе не математические, то почему они вообще появляются в статистике?

Предпосылки / Контекст:
Этот пост в блоге не совсем говорит то же самое, но он утверждает, что попытка классифицировать методы как «байесовские» или «частые» контрпродуктивна с прагматической точки зрения.

Если цитата из Википедии верна, то кажется, что с философской точки зрения попытка классификации статистических методов также контрпродуктивна - если метод является математически корректным, то допустимо использовать метод, когда предположения основополагающей математики держитесь, иначе, если это не математически правильно или если предположения не верны, тогда это недопустимо использовать.

С другой стороны, многие люди, по-видимому, отождествляют «байесовский вывод» с теорией вероятностей (то есть аксиомами Колмогорова), хотя я не совсем уверен, почему. Некоторыми примерами являются трактат Джейнса о байесовском выводе под названием «Вероятность», а также книга Джеймса Стоуна «Правило Байеса». Так что, если я принял эти требования за чистую монету, это значит, что я бы предпочел байесовский подход.

Тем не менее, книга Казеллы и Бергера кажется частой, потому что в ней обсуждаются оценки максимальной вероятности, но игнорируется максимальная апостериорная оценка, но также кажется, что все в ней математически правильно.

Итак, не следует ли из этого, что единственно математически правильная версия статистики - это та, которая отказывается быть абсолютно агностичной по отношению к байесианству и частоте? Если методы с обеими классификациями являются математически правильными, то не является ли неправильной практикой отдавать предпочтение некоторым из других, потому что это будет отдавать предпочтение смутной, плохо определенной философии над точной, хорошо определенной математикой?

Резюме: Короче говоря, я не понимаю, какова математическая основа для дебатов Байеса и частых, и если нет математической основы для дебатов (как утверждает Википедия), я не понимаю, почему это допускается в все в академическом дискурсе.

Chill2Macht
источник
5
Возможно, также интересно: принимают ли байесовские аксиомы Колмогорова? ,
Scortchi - Восстановить Монику
1
@PeterMortensen Я уже видел этот вопрос, прежде чем задавать этот вопрос; однако ответ на этот вопрос не касался моего основного источника путаницы, а именно какой математической разницы, если таковая существует, между этими двумя; помните, что меня не интересуют философские различия, поскольку они не должны иметь никакого отношения к пространству возможных моделей.
Chill2Macht
1
Комментарии не для расширенного обсуждения; этот разговор был перенесен в чат .
whuber
4
Байесовские дебаты не столько о вероятности, сколько о статистической интерпретации и обоснованности ее применения.
RBarryYoung
2
@Mehrdad Этот вопрос не о разных подходах, дающих разные ответы, а о возможности формализовать с помощью математических аксиом различие между байесовским поведением и частотой. Ответы на связанный вопрос не объясняют аксиоматических различий между двумя подходами.
Chill2Macht

Ответы:

14

Пространства вероятностей и аксиомы Колмогорова

Пространство вероятностей по определению является тройкой где - набор результатов, - -алгебра на подмножества и являются вероятностной мерой, которая удовлетворяет аксиомам Колмогорова, т.е. является функцией от до такой, что и для непересекающихся в он считает, что ( Ω , F , P ) Ω F σ Ω P P F [ 0 , 1 ] P ( Ω ) = 1 E 1 , E 2 , F P ( j = 1 E j ) = j = 1 P ( E j )P(Ω,F,P)ΩFσΩPPF[0,1]P(Ω)=1E1,E2,FP(j=1Ej)=j=1P(Ej),

В таком вероятностном пространстве можно для двух событий в определить условную вероятность какF P ( E 1 | E 2 ) d e f = P ( E 1E 2 )E1,E2FP(E1|E2)=defP(E1E2)P(E2)

Обратите внимание, что:

  1. эта «условная вероятность» определяется только тогда, когда определена в , поэтому нам нужно пространство вероятностей, чтобы иметь возможность определять условные вероятности.FPF
  2. Вероятность пространство определяется в самом общем виде ( множество , - алгебра и вероятностная мера ), единственным требованием является то, что некоторые свойства должны быть выполнены , но помимо этого эти три элемента могут быть «чем угодно».σ F PΩ σFP

Более подробно можно найти по этой ссылке

Правило Байеса выполняется в любом (действительном) вероятностном пространстве

Из определения условной вероятности также следует, что . И из двух последних уравнений мы находим правило Байеса. Таким образом, правило Байеса выполняется (по определению условной вероятности) в любом вероятностном пространстве (чтобы показать его, выведите и из каждого уравнения и приравните их (они равны, потому что пересечение коммутативно)). P(E1E2)P(E2E1)P(E2|E1)=P(E2E1)P(E1)P(E1E2)P(E2E1)

Поскольку байесовское правило является основой для байесовского вывода, можно выполнить байесовский анализ в любом допустимом (т. Е. Выполняющем все условия, аксиомы Колмогорова) вероятностном пространстве.

Частое определение вероятности - это «особый случай»

Вышеприведенное имеет место «в целом», т. Е. У нас нет конкретных , , пока является -алгеброй на подмножествах и выполняет аксиомы Колмогорова.F P F σ Ω PΩFPFσΩP

Теперь мы покажем, что «частое» определение удовлетворяет аксиомам Коломогорова. Если это так, то «частые» вероятности являются лишь частным случаем общей и абстрактной вероятности Колмогорова. P

Давайте возьмем пример и бросим кости. Тогда множество всех возможных результатов равно . Нам также нужна -алгебра на этом множестве и мы берем множество всех подмножеств , то есть .Ω = { 1 , 2 , 3 , 4 , 5 , 6 } σ Ω F Ω F = 2 ΩΩΩ={1,2,3,4,5,6}σΩFΩF=2Ω

Нам все еще нужно определить вероятностную меру частым способом. Поэтому мы определяем как где - это число , полученное в бросках костей. Аналогично для , ... .PP({1}) n1P({1})=deflimn+n1nn1n P ( { 2 } ) P ( { 6 } )1nP({2})P({6})

Таким образом, определен для всех синглетонов в . Для любого другого набора в , например, мы часто определяем то есть , но в силу линейности 'lim' это равно , откуда следует, что аксиомы Колмогорова выполнены.F F { 1 , 2 } P ( { 1 , 2 } ) P ( { 1 , 2 } ) d e f = lim n + n 1 + n 2PFF{1,2}P({1,2}) P({1})+P({2})P({1,2})=deflimn+n1+n2nP({1})+P({2})

Таким образом, частотное определение вероятности является лишь частным случаем общего и абстрактного определения вероятностной меры Коломогоровым.

Обратите внимание, что существуют и другие способы определения вероятностной меры, которая удовлетворяет аксиомам Колмогорова, поэтому частое определение не единственно возможное.

Заключение

Вероятность в аксиоматической системе Колмогорова «абстрактна», она не имеет реального значения, она должна только удовлетворять условиям, называемым «аксиомами». Используя только эти аксиомы, Колмогоров смог вывести очень богатый набор теорем.

Частотное определение вероятности заполняет аксиомы и, следовательно, заменяет абстрактный, «бессмысленный» на вероятность, определенную частым способом, все эти теоремы верны, потому что «вероятностная вероятность» является лишь особой случай абстрактной вероятности Колмогорова (т. е. он выполняет аксиомы).P

Одним из свойств, которые могут быть получены в общей структуре Колмогорова, является правило Байеса. Так как он имеет место в общей и абстрактной структуре, он также будет иметь место (ср. Выше) в конкретном случае, когда вероятности определяются часто (потому что определение часто соответствует аксиомам, и эти аксиомы были единственной вещью, которая необходима для выводим все теоремы). Таким образом, можно провести байесовский анализ с частым определением вероятности.

Определение на частой основе - не единственная возможность, есть и другие способы определить его так, чтобы он удовлетворял абстрактным аксиомам Колмогорова. Правило Байеса также будет иметь место в этих «особых случаях». Таким образом, можно также сделать байесовский анализ с , не -frequentist определения вероятности.P

РЕДАКТИРОВАТЬ 23/8/2016

@mpiktas реакция на ваш комментарий:

Как я уже сказал, множества и мера вероятности имеют особого значения в аксиоматической системе, они абстрактны. PΩ,FP

Для того , чтобы применить эту теорию , которую вы должны дать дальнейшие определения (так , что вы говорите в своем комментарии «нет необходимости запутывать его дальше с некоторыми странными определениями„“ это не так, вам нужны дополнительные определения ).

Давайте применим его к случаю подбрасывания справедливой монеты. Множество в теории Колмогорова не имеет особого значения, оно просто должно быть «множеством». Таким образом, мы должны указать, что это за набор в случае честной монеты, т.е. мы должны определить набор . Если мы представим голова как H и хвост , как Т, то множество является по определению .Ω Ω Ω d e f = { H , T }ΩΩΩ Ω=def{H,T}

Мы также должны определить события, то есть -algebra . Мы определяем это как . Легко проверить, что является -алгеброй.F F d e f = { , { H } , { T } , { H , T } } F σσFF=def{,{H},{T},{H,T}}Fσ

Далее мы должны определить для каждого события в его меру. Поэтому нам нужно определить карту из в . Я буду определять его частым образом, для честной монеты, если я подброшу ее огромное количество раз, тогда доля голов будет 0,5, поэтому я определяю . Аналогичным образом я определяю , и . Обратите внимание, что является отображением из в и что оно удовлетворяет аксиомам Колмогорова.F [ 0 , 1 ] P ( { H } ) d e f = 0,5 P ( { T } ) d e f = 0,5 P ( { H , T } ) d e f = 1 P ( ) d eEFF[0,1]P({H})=def0.5P({T})=def0.5P({H,T})=def1P()=def0PF[0,1]

Для ссылки с частым определением вероятности см. Эту ссылку (в конце раздела «определение») и эту ссылку .

Сообщество
источник
10
Возможно, следует где-то отметить, что есть частые / байесовские дебаты о интерпретации вероятности, и есть частые / байесовские дебаты о статистическом выводе. Это две разные (хотя и связанные) дискуссии. Этот ответ говорит исключительно о первом, и это хорошо (и я думаю, что здесь заинтересовал @William, поскольку он решил принять этот ответ), но большинство других ответов в основном говорят о втором. Это просто записка для будущих читателей, но также и записка для Уильяма.
говорит амеба, восстанови Монику
2
Я отказываюсь, потому что нет ссылки на определение определения «частой вероятности», и без этого пост не имеет смысла. Например, данное определение даже математически неверно, поскольку определение зависит от предела бросков костей. Математические объекты являются абстрактными и не зависят от физических объектов. Кроме того, чтобы доказать, что предел существует, вам нужно построить вероятностное пространство, в котором определена случайная величина , а затем доказать, что оно сходится, для чего вам нужна теория меры и ...n n 1 / nP({1})nn1/n
mpiktas
2
определение вероятности. Таким образом, даже если мы допустим такое определение, оно является круговым, т.е. для проверки того, удовлетворяет ли объект определению, вам необходимо определить объект. Я бы очень хотел получить ссылку на учебник, который использует такое определение и пытается использовать его для получения всех обычных результатов в статистике.
mpiktas
5
Эта длинная и подробная статья в Стэнфордской энциклопедии философии вероятностных интерпретаций содержит длинный и подробный раздел о частоте и может быть более точной ссылкой, чем ваша ссылка на Википедию (Стэнфордская энциклопедия довольно авторитетна, в отличие от Википедии). Это ясно дает понять, что вопрос о том, имеет ли смысл определение часто встречающегося, и даже о том, что именно составляет это определение, является вопросом продолжающихся 150-летних дебатов, которые вы и @mpiktas, по-видимому, повторяете здесь в разделе комментариев.
говорит амеба, восстанови Монику
2
@amoeba: Мне особенно нравится напоминание в вашей ссылке, что мы можем интерпретировать «вероятность» всеми способами, не имеющими ничего общего с понятием, которое обычно понимают - например, нормализованную длину, - и при этом оставаться в согласии с аксиомами Колмогорова.
Scortchi - Восстановить Монику
66

Статистика это не математика

Во-первых, я краду слова @ whuber из комментария в статистике не математика? (применяется в другом контексте, поэтому я краду слова, а не цитирую):

Если бы вы заменили «статистику» на «химию», «экономику», «инженерию» или любую другую область, в которой используется математика (например, экономика дома), похоже, ни один из ваших аргументов не изменится.

Все эти поля могут существовать и иметь вопросы, которые не решаются только путем проверки правильности теорем. Хотя некоторые ответы в статистике не математика? не согласен, я думаю, что ясно, что статистика не является (чистой) математикой. Если вы хотите заняться теорией вероятностей, разделом (чистой) математики, вы действительно можете игнорировать все споры, о которых вы спрашиваете. Если вы хотите применить теорию вероятностей к моделированию некоторых реальных вопросов, вам нужно нечто большее, чем просто аксиомы и теоремы математической структуры. Остальная часть ответа не знает этого вопроса.

Утверждение «если мы хотим быть математически правильными, не должны ли мы запретить какое-либо толкование вероятности», также кажется неоправданным. Помещение интерпретации поверх математической структуры не делает математику неправильной (до тех пор, пока интерпретация не утверждается как теорема в математической структуре).

Дискуссия не (в основном) об аксиомах

Хотя есть некоторые альтернативные аксиоматизации *, (?) Дискуссия не об оспаривании аксиом Колмогорова. Игнорируя некоторые тонкости с событиями обусловленности нулевой меры, приводящими к регулярной условной вероятности и т. Д., О которых я недостаточно знаю, аксиомы Колмогорова и условная вероятность подразумевают правило Байеса, которое никто не оспаривает. Однако, если даже не является случайной величиной в вашей модели (модель в смысле математической установки, состоящей из вероятностного пространства или их семейства, случайных величин и т. Д.), Конечно, невозможно вычислить условную распределение . Никто также не оспаривает, что частотные свойства, если они правильно рассчитаны, являются следствиями модели. Например, условные распределенияP ( X Y ) p ( y θ ) p ( y ; θ ) p ( y θ ) = p ( y ; θ ) θ θXP(XY)p(yθ)в байесовской модели определите индексированное семейство распределений вероятности , просто приняв и, если некоторые из них верны для всех в последнем, они верны и для всех в первом.p(y;θ)p(yθ)=p(y;θ)θθ

Спор о том, как применять математику

Дискуссия (как и любая другая существует **), вместо этого, о том, как решить, какую модель вероятности установить для (реальной, нематематической) проблемы и какие значения модели актуальны для рисования (реального жизненные выводы. Но эти вопросы существовали бы, даже если бы все статистики согласились. Чтобы процитировать цитату из поста, на который вы ссылаетесь [1], мы хотим ответить на такие вопросы, как

Как мне создать рулетку, чтобы мое казино зарабатывало $? Увеличивает ли это удобрение урожайность? Лечит ли стрептомицин туберкулез легких? Курение вызывает рак? Какой фильм понравился бы этому пользователю? С каким бейсболистом Red Sox должен заключить контракт? Должен ли этот пациент получать химиотерапию?

Аксиомы теории вероятностей даже не содержат определения бейсбола, поэтому очевидно, что «Ред Сокс должен заключить контракт с бейсболистом Х» - это не теорема в теории вероятностей.

Заметка о математических обоснованиях байесовского подхода

Существуют «математические обоснования» для того, чтобы рассматривать все неизвестные как вероятностные, такие как теорема Кокса, на которую ссылается Джейнс (хотя я слышал, что у нее есть математические проблемы, которые могли или не были исправлены, я не знаю, см. [2] и ссылки на него) или (субъективный байесовский) подход Сэвиджа (я слышал, что это в [3], но никогда не читал книгу), который доказывает, что при определенных допущениях рациональное лицо, принимающее решение, будет иметь распределение вероятностей по состояниям мира и выберите его действие на основе максимизации ожидаемого значения функции полезности. Однако, должен ли менеджер Red Sox принять предположения или мы должны принять теорию, что курение вызывает рак, нельзя сделать вывод из какой-либо математической основы,

Сноски

* Я не изучал его, но слышал, что у де Финетти есть подход, в котором условные вероятности являются примитивами, а не получены из (безусловной) меры путем обусловливания. [4] упоминает дебаты (байесовцев) Хосе Бернардо, Денниса Линдли и Бруно де Финетти в уютном французском ресторане о необходимости -аддитивности.σ

**, как упоминалось в сообщении в блоге, на которое вы ссылаетесь [1], не может быть никаких явных дебатов со всеми статистиками, принадлежащими к одной команде и презирающими другую. Я слышал, как говорят, что мы все прагматики в наше время и бесполезные дебаты закончились. Однако, по моему опыту, эти различия существуют, например, в том, является ли чей-то первый подход моделированием всех неизвестных в качестве случайных переменных или нет, и насколько заинтересован кто-то в частотных гарантиях.

Рекомендации

[1] Просто статистика, статистический блог Рафы Иризарри, Роджера Пенга и Джеффа Лика, «Я объявляю дебаты Байеса и Фракиста для ученых данных», 13 октября 2014 г., http://simplystatistics.org/2014/10 / 13 / , как-ан-прикладному-статистиком-я-найти-frequentists-против-bayesians-диспут-полностью-несущественным /

[2] Dupré, MJ, & Tipler, FJ (2009). Новые аксиомы для строгой байесовской вероятности. Байесовский анализ, 4 (3), 599-606. http://projecteuclid.org/download/pdf_1/euclid.ba/1340369856

[3] Savage, LJ (1972). Основы статистики. Курьерская Корпорация.

[4] Бернардо, Дж. М. История Валенсии - некоторые подробности о происхождении и развитии международных совещаний по байесовской статистике в Валенсии. http://www.uv.es/bernardo/ValenciaStory.pdf

Юхо Коккала
источник
13
+1, в частности для «Аксиомы теории вероятностей даже не содержат определения бейсбола».
говорит амеба: восстанови Монику
5
@William: параметр не считается постоянной случайной величиной - это не факт, который нужно выводить или наблюдать. Вопрос заключается в том, представляет ли эпистемическая неопределенность истинное значение параметра с помощью распределения вероятностей. (Частотный анализ представляет только случайный процесс генерирования данных с использованием распределения вероятностей.)
Scortchi - Восстановить Монику
4
@ Уильям, у классического Монти Холла нет ничего, что было бы разумно интерпретировано как параметр или как данные, это проблема вероятности. Байесовский / частый подход вступит в игру только в том случае, если вы захотите оценить, скажем, параметр параметризованного варианта, описанного здесь en.wikipedia.org/wiki/Monty_Hall_problem#Variants , просмотрев несколько эпизодов игрового шоу. Я, как байесовец, возможно, поставлю, например, бета-версию перед и начну обновление. Будет ли это работать хорошо в компьютерном моделировании, может сильно зависеть от того, как компьютерное моделирование выбирает . q qqqq
Юхо Коккала
8
Предварительно отмечаю, что я не заинтересован в продолжении каких-либо дискуссий по этому вопросу в разделе комментариев, поскольку он (и вообще этот сайт) не является местом для дискуссий.
Юхо Коккала
2
Я полностью согласен "статистика не математика". Вигнер написал эссе под названием «Неоправданная эффективность математики в физике», в котором утверждал, что, поскольку не было внутренней связи между абстрактным миром математики и конкретным миром физики. Удивительно (и замечательно), что математика так хорошо работает при описании физики. Я чувствую то же самое относится и к статистике. Я с нетерпением жду, когда кто-нибудь напишет «Необоснованная эффективность математики в статистике». Мне лично кажется удивительным, что абстрактная математика так хорошо работает при описании статистических явлений.
Агиненский
32

Математическая основа байесовских и частых дебатов очень проста. В байесовской статистике неизвестный параметр рассматривается как случайная величина; в статистике часто это рассматривается как фиксированный элемент. Поскольку случайная величина является гораздо более сложным математическим объектом, чем простой элемент множества, математическое различие совершенно очевидно.

Тем не менее, оказывается, что фактические результаты с точки зрения моделей могут быть удивительно похожи. Взять, к примеру, линейную регрессию. Байесовская линейная регрессия с неинформативными априорными значениями приводит к распределению оценки параметра регрессии, среднее значение которой равно оценке параметра частичной регрессии, которая является решением проблемы наименьших квадратов, что даже не является проблемой теории вероятностей , Тем не менее, математика, которая использовалась для достижения аналогичного решения, совершенно иная, по причине, изложенной выше.

Естественно, из-за различий в трактовке математических свойств неизвестного параметра (случайная величина и элемент множества) как байесовская, так и статистическая статистика встречаются в тех случаях, когда может показаться, что выгоднее использовать конкурирующий подход. Доверительные интервалы являются ярким примером. Нет необходимости полагаться на MCMC для получения простой оценки. Тем не менее, это обычно больше вопросы вкуса, а не математики.

mpiktas
источник
5
Хотя константа является частным случаем случайной величины, я бы не решился сделать вывод, что байесовский подход носит более общий характер. Вы не получите частых результатов от байесовских, просто сложив случайную переменную до константы. Разница более глубокая. Когда вы предполагаете, что ваш параметр является неизвестной константой, фокус исследования становится оценкой, которая является случайной величиной (так как это измеряемая функция выборки) и насколько она близка к истинному значению параметра, или каким образом получить оценку, чтобы она была близка к истинной оценке.
mpiktas
6
Поскольку оценка является случайной величиной, вы не можете изучать ее, игнорируя теорию меры, поэтому я нахожу ваше утверждение о том, что многие статистики демонстрируют удивительное количество невежества и презрения к теории меры, довольно удивительно. Вы читали Асимптотическую Статистику А. ван дер Ваарта? Я бы посчитал эту книгу очень хорошим обзором статистики по частоте и особенностей теории измерения.
mpiktas
3
Байесовская статистика, с другой стороны, выводит распределение параметра практически сразу, и тогда возникает вопрос, как на самом деле его вычислить (много исследований различных алгоритмов выборки, Метрополиса-Гастингса и т. Д.) И какова важность априорных значений. Я не очень знаком с исследованиями по байесовской статистике, поэтому моё обобщение может быть немного неправильным Переходя к личным предпочтениям, несмотря на то, что я был более или менее обучен как частый участник, мне не нравится, что в байесовской статистике используется довольно ограниченное подмножество доступных распределений ...
mpiktas
3
Он всегда начинается с нормального распределения и его сопряженных элементов, а также того, как далеко вы зашли. Поскольку почти все данные, с которыми я работаю, обычно не распространяются, я сразу начинаю подозревать и предпочитаю работать с методами, которые не зависят от распространения. Однако это личное предпочтение, и я обнаружил, что в прикладной работе, которую я делаю, я еще не нашел проблему, для которой частый подход потерпел бы такой впечатляющий эффект, что мне пришлось бы перейти на байесовский.
mpiktas
4
«Он всегда начинается с нормального распределения и его конъюгатов, и как далеко вы зашли ...» - вот почему для выборки из апостериорного распределения параметров используются методы Монте-Карло; они работают также для общих дистрибутивов (программное обеспечение BUGS и его варианты).
Джон Донн
25

Я не люблю философию, но мне нравится математика, и я хочу работать исключительно в рамках аксиом Колмогорова.

Как именно вы применили бы аксиомы Колмогорова без какой-либо интерпретации? Как бы вы интерпретировали вероятность? Что бы вы сказали человеку, который спросил вас: «Что означает ваша оценка вероятности ?» 0.5Вы сказали бы, что ваш результат - число0.5, что правильно, поскольку он следует аксиомам? Без какой-либо интерпретации вы не могли бы сказать, что это говорит о том, как часто мы ожидаем увидеть результат, если повторим наш эксперимент. Вы также не могли бы сказать, что это число говорит вам, насколько вы уверены в вероятности того или иного события. Вы также не могли бы ответить, что это говорит о том, насколько вероятно, по вашему мнению, это событие. Как бы вы интерпретировали ожидаемое значение - как некоторые числа, умноженные на некоторые другие числа и суммированные вместе, которые действительны, поскольку они следуют аксиомам и нескольким другим теоремам?

Если вы хотите применить математику к реальному миру, то вам нужно ее интерпретировать. Числа без интерпретаций являются ... числами. Люди не рассчитывают ожидаемые значения, чтобы оценить ожидаемые значения, но узнают что-то о реальности.

Более того, вероятность абстрактна, а мы применяем статистику (и вероятность как таковую) к событиям в реальном мире. Возьмите самый простой пример: честная монета. В частой интерпретации, если вы бросали такую ​​монету большое количество раз, вы ожидали бы одинакового количества голов и хвостов. Однако в реальном эксперименте это почти никогда не произойдет. Таким образом, вероятность действительно не имеет ничего общего с любой конкретной монетой, брошенной определенное количество раз.0.5

Вероятность не существует

- Бруно де Финетти

Тим
источник
3
«Если бы вы бросали такую ​​монету большое количество раз, вы ожидали бы одинакового количества голов и хвостов» - это неверное понимание закона больших чисел. См. Главу III тома 1 « Введение Феллера в теорию вероятностей и приложения» . Например, на с.67 «В популяции нормальных монет большинство обязательно дезадаптировано».
Chill2Macht
1
@William, что бы вы ответили на вопрос "что означает p = 0.5?" где p - оценка вероятности эксперимента с подбрасыванием монеты ...?
Тим
1
Вы также цитируете Феллера, который упоминает «большинство» - большинство из того, что именно, если вы не делаете частые интерпретации вероятности ..?
Тим
7
Облегчающие вещи: с точки зрения частых вероятности вероятность связана с пропорциями событий, происходящих среди возможных событий; в байесовском толковании речь идет о том, насколько что-либо правдоподобно (см. en.wikipedia.org/wiki/Probability#Interpretations ). Рассказывая мне о пробном пространстве и т. Д., Вы предполагали, что есть что-то, кроме единственного будущего броска монеты - это ваша интерпретация вероятности, поскольку будет только один бросок, поэтому весь аргумент о пробном пространстве не применим к Это. Вы совершенно правы в своей интерпретации, но это
Тим
5
интерпретация. Чтобы применить вероятность к реальным событиям, вам необходимо сделать такие интерпретации. Какова вероятность того, что Трамп победит на выборах в США в 2016 году? Этот вопрос без ответа, если вы не будете делать предположения о вероятности.
Тим
10

Мой взгляд на контраст между байесовским и частым умозаключениями заключается в том, что первым вопросом является выбор события, для которого вы хотите получить вероятность. Частые участники предполагают, что вы пытаетесь доказать (например, нулевую гипотезу), а затем вычисляете вероятность наблюдения того, что вы уже наблюдали, в соответствии с этим предположением. Существует точная аналогия между такими вероятностями порядка обратного потока информации и чувствительностью и специфичностью в медицинской диагностике, которые вызвали огромные недоразумения и должны быть выручены правилом Байеса, чтобы получить вероятности вперед («вероятности после теста»). Байесовские вычисления вычисляют вероятность события, а абсолютные вероятности невозможно вычислить без привязки (априор). Байесовская вероятность достоверности высказывания сильно отличается от вероятности получения данных при частом наблюдении при определенном непостижимом предположении. Различия более выражены, когда частый участник должен скорректировать другие анализы, которые были выполнены или могли быть выполнены (множественность; последовательное тестирование и т. Д.).

Таким образом, обсуждение математической основы очень интересно и очень уместно. Но нужно сделать фундаментальный выбор вероятностей вперед и назад. Следовательно, то, что обусловлено, что не совсем математика, невероятно важно. Байесовцы верят, что полное кондиционирование на том, что вы уже знаете, является ключевым. Частые участники чаще всего утверждают, что делает математику простой.

Фрэнк Харрелл
источник
9

Я разобью это на два отдельных вопроса и отвечу на каждый.

1.) Принимая во внимание различные философские взгляды на то, что означает вероятность в частом и байесовском аспектах, существуют ли математические правила вероятности, которые применяются к одной интерпретации и не применяются к другой?

Нет. Правила вероятности остаются одинаковыми между двумя группами.

2.) Используют ли байесовцы и частотники одни и те же математические модели для анализа данных?

Вообщем нет. Это потому, что две разные интерпретации предполагают, что исследователь может получить представление из разных источников. В частности, часто считается, что структура Frequentist предполагает, что можно сделать вывод о параметрах, представляющих интерес, только из наблюдаемых данных, в то время как байесовская точка зрения предполагает, что следует также включать независимые экспертные знания по этому вопросу. Разные источники данных означают, что для анализа будут использоваться разные математические модели.

Также следует отметить , что существует множество водоразделы между моделями используются два лагеря , которые в большей степени связана с тем, что уже было сделано , чем то , что можетбыть сделано (то есть многие модели, которые традиционно используются одним лагерем, могут быть оправданы другим лагерем). Например, модели BUGs (байесовский вывод с использованием выборки Гиббса, имя, которое по многим причинам более точно не описывает набор моделей) традиционно анализируются с помощью байесовских методов, в основном из-за наличия отличных пакетов программного обеспечения для этого (JAG, Стэн например). Тем не менее, нет ничего, что говорит, что эти модели должны быть строго байесовскими. Фактически, я работал над проектом NIMBLE, который строит эти модели в структуре BUG, ​​но дает пользователю гораздо больше свободы в том, как делать на них выводы. В то время как подавляющее большинство инструментов, которые мы предоставили, были настраиваемыми байесовскими методами MCMC, для этих моделей также можно было использовать оценку максимального правдоподобия, традиционно метод Frequentist. По аналогии, Приоры часто рассматриваются как то, что вы можете сделать с байесовским, что вы не можете сделать с моделями Frequentist. Тем не менее, штрафные оценки могут предусматривать те же модели с использованием регуляризирующих оценок параметров (хотя байесовская структура предоставляет более простой способ обоснования и выбора параметров регуляризации, в то время как для часто встречающихся остается в лучшем случае большого количества данных ", мы выбрали эти параметры регуляризации, потому что по большому количеству перекрестно проверенных выборок, они снизили оценочную ошибку выборки "... к лучшему или к худшему).

Клифф AB
источник
1
Я в некоторой степени возражаю против этой цитаты: «В частности, часто считается, что структура Frequentist предполагает, что можно сделать выводы о параметрах, представляющих интерес, только из наблюдаемых данных, в то время как байесовская точка зрения предполагает, что следует также включать в себя знания независимых экспертов. о предмете ". Прежде всего, из-за того, что частые специалисты по какой-либо причине не заинтересованы в независимых экспертных знаниях по этому вопросу. Разница между frequentists и Bayesians не то, что бывший упорно отказываются использовать предварительные знания или контекст ... (1/2)
Ryan Simmons
1
... но скорее, что две школы мысли используют эти предварительные знания / контекст по-разному. Вы можете утверждать, что байесовская перспектива использует более принципиальный подход к включению этих предварительных знаний непосредственно в модель (хотя я бы сказал, что широко распространенное использование неинформативных априоров скорее ослабляет этот аргумент). Но я не думаю, что было бы справедливо характеризовать это как проблему частых лиц, НЕ использующих эту информацию. (2/2)
Райан Симмонс
1
@RyanSimmons: верно, именно поэтому я заявил, что «часто полагают, что предлагают ...». Например, если исследователь отмечает, что регуляризирующие оценки параметров, основанные на мнении эксперта, в конечном итоге приводят к более точным прогнозам, нет проблем с включением этого в структуру Frequentist («основанный на измерениях Frequentist, эта расширенная оценка лучше долгосрочные эксплуатационные характеристики, чем оценки только для данных "). Но это не так просто, как в байесовских рамках.
Клифф AB
1
Справедливо! Я согласен.
Райан Симмонс
5

Байесовцы и частотники считают, что вероятности представляют разные вещи. Частые люди думают, что они связаны с частотами и имеют смысл только в тех случаях, когда частоты возможны. Байесовцы рассматривают их как способы представления неопределенности. Поскольку любой факт может быть неопределенным, вы можете говорить о вероятности чего-либо.

Математическое следствие состоит в том, что частые люди считают, что базовые уравнения вероятности применимы только иногда, а байесовские считают, что они всегда применимы. Таким образом, они рассматривают одни и те же уравнения как правильные, но различаются по тому, насколько они общие.

Это имеет следующие практические последствия:

(1) Байесовские методы будут выводить свои методы из основных уравнений теории вероятностей (из которых теорема Байеса является лишь одним примером), в то время как специалисты по частоте изобретают один интуитивный специальный подход за другим для решения каждой проблемы.

(2) Существуют теоремы, указывающие на то, что если вы рассуждаете по неполной информации, вам лучше последовательно использовать основные уравнения теории вероятностей, иначе у вас будут проблемы. Многие люди сомневаются в том, насколько значимы такие теоремы, но это то, что мы видим на практике.

Например, 95% доверительных интервалов реального невинного вида могут состоять исключительно из значений, которые невозможно доказать (из той же информации, которая использовалась для получения доверительного интервала). Другими словами, методы Frequentist могут противоречить простой дедуктивной логике. Байесовские методы, полученные полностью из основных уравнений теории вероятностей, не имеют этой проблемы.

(3) Байесовский является строго более общим, чем Frequentist. Поскольку может быть неопределенность в отношении любого факта, любому факту может быть назначена вероятность. В частности, если факты, над которыми вы работаете, относятся к частотам реального мира (как к чему-то, что вы предсказываете, или к части данных), тогда байесовские методы могут рассматривать и использовать их так же, как и любой другой факт в реальном мире.

Следовательно, любая проблема, которую часто встречают частые пользователи, считает, что их методы применимы к байесовским методам. Обратное, однако, часто неверно, если Frequentists не изобрели отговорки, чтобы интерпретировать их вероятность как «частоту», такую ​​как, например, воображение множества вселенных или выдумывание гипотетических повторений до бесконечности, которые никогда не выполняются и часто не могут быть в принципе ,

Лаплас
источник
7
Не могли бы вы дать некоторые ссылки на смелые заявления, которые вы предоставили? Например, «Частые считают, что основные уравнения вероятности применимы только иногда»? И каковы основные уравнения вероятности?
mpiktas
6
Гораздо интереснее, чем дебаты B против F, является ваше замечание об доверительных интервалах, содержащих невозможные значения. Можете ли вы привести или дать ссылку на конкретный пример 95% -ного КИ, содержащего только невозможные значения? Это может быть одной из тех вещей, которые каждый статист должен был увидеть хотя бы раз в своей жизни (как предостережение), но я этого не сделал.
Винсент
9
То, что CI может содержать все «невозможные» значения, вовсе не «противоречит простой дедуктивной логике». Это звучит как неправильное понимание определения КИ - или, возможно, путаница между интерпретациями КИ и достоверными интервалами.
whuber
7
Это похоже на философскую напыщенную речь, а не ответ на вопрос ОП (который был строго не о философии).
Клифф AB
5
«Можно сделать вывод, что каждый статистик мог бы сделать из КИ (без которого у КИ нет никакой практической цели или контакта с реальным миром) противоречие тому, что может быть выведено из того же доказательства». Это по- прежнему никоим образом не подтверждает ваше утверждение о том, что частые люди игнорируют правила вероятности. И я боюсь, что это идет по проторенному пути "Байеса против Частых: сражайтесь!" что большинство читателей здесь предпочитают избегать.
Клифф AB
3

Вопрос: Тогда, если мы хотим быть математически правильными, не должны ли мы запретить какую-либо интерпретацию вероятности? Т.е. математически неверны и байесовский, и частотный?

Да, и это именно то, что люди делают как в философии науки, так и в математике.

  1. Философский подход. Википедия предоставляет сборник толкований / определений вероятности .

  2. Математики небезопасны. В прошлом колмогоровская школа имела монополию вероятности: вероятность определяется как конечная мера, которая присваивает 1 всему пространству ... Эта гегемония больше не действительна, поскольку существуют новые тенденции в определении вероятности, такие как квантовая вероятность и Свободная вероятность .

Тим Аллен
источник
X+YY+XXYYXC
7
C
2

Байесовские / частые дебаты основаны на многочисленных основаниях. Если вы говорите о математической основе, я не думаю, что есть много.

Им обоим нужно применять различные приближенные методы для сложных задач. Два примера: «bootstrap» для частых и «mcmc» для байесовских.

Они оба приходят с ритуалами / процедурами, как их использовать. Частый пример - «предложить оценку чего-либо и оценить его свойства при повторной выборке», а байесовский пример - «вычислить распределения вероятностей для того, что вы не знаете, при условии, что вы действительно знаете». Нет математической основы для использования вероятностей таким способом.

Дебаты больше о применении, интерпретации и способности решать проблемы реального мира.

Фактически, это часто используется людьми, обсуждающими «свою сторону», где они будут использовать определенный «ритуал / процедуру», используемый «другой стороной», чтобы утверждать, что вся теория должна быть отброшена для их. Некоторые примеры включают ...

  • используя глупые приоры (и не проверяя их)
  • используя глупые CI (и не проверяя их)
  • путая вычислительную технику с теорией (Байес не mcmc !! То же самое касается приравнивания перекрестной проверки с машинным обучением)
  • говорить о проблеме с конкретным приложением с одной теорией, а не о том, как другая теория могла бы решить конкретную проблему «лучше»
probabilityislogic
источник
Хаха, это очень верно, я думаю. Я должен был слушать профессора в течение получаса о том, как Байесианизм ужасен, потому что придумывать приоры субъективно не имеет смысла, и все время я думал: «Ну, да, так вот почему вы не выбрали бы до этого пути ". Суть в том, что я согласен с тем, что аргументов в пользу солидарности предостаточно.
Chill2Macht
1

Итак, не следует ли из этого, что единственно математически правильная версия статистики - это та, которая отказывается быть абсолютно агностичной по отношению к байесианству и частоте? Если методы с обеими классификациями являются математически правильными, то не является ли неправильной практикой отдавать предпочтение некоторым из других, потому что это будет отдавать предпочтение смутной, плохо определенной философии над точной, хорошо определенной математикой?

Нет, не следует Люди, которые не могут чувствовать свои эмоции, биологически не способны принимать решения, в том числе решения, которые, как представляется, имеют только одно объективное решение. Причина в том, что рациональное принятие решений зависит от наших эмоциональных способностей и наших предпочтений, как когнитивных, так и эмоциональных. Хотя это страшно, это эмпирическая реальность.

Гупта Р, Косчик Т.Р., Бечара А., Транел Д.. Миндалина и принятие решений. Neuropsychologia. 2011; 49 (4): 760-766. DOI: 10.1016 / j.neuropsychologia.2010.09.029.

Человек, который предпочитает яблоки апельсинам, не может защитить это, поскольку это - предпочтение. И наоборот, человек, который предпочитает апельсины яблокам, не может отстоять это рационально, так как это предпочтение. Люди, которые предпочитают яблоки, часто едят апельсины, потому что стоимость яблок слишком велика по сравнению со стоимостью апельсинов.

Большая часть дебатов о байесовском и частом, а также о вероятностных и частых дебатах была связана с ошибками понимания. Тем не менее, если мы представим, что у нас есть человек, который хорошо обучен всем методам, включая второстепенные или более неиспользуемые методы, такие как вероятность Карнапа или статистические данные, то для них разумнее отдать предпочтение некоторым инструментам по сравнению с другими инструментами.

Рациональность зависит только от предпочтений; поведение зависит от предпочтений и затрат.

Может быть так, что с чисто математической точки зрения один инструмент лучше другого, где лучше определяется с использованием некоторой функции стоимости или полезности, но если нет единственного ответа, когда может работать только один инструмент, то и затраты, и предпочтения должны быть взвешены.

Рассмотрим проблему букмекера, который предлагает сложную ставку. Понятно, что в этом случае букмекер должен использовать байесовские методы, поскольку они последовательны и обладают другими приятными свойствами, но при этом имейте в виду, что у букмекера есть только калькулятор, а не карандаш и бумага. Это может быть тот случай, когда букмекер с помощью своего калькулятора и отслеживая вещи в своей голове может вычислить решение Frequentist и не имеет шансов на Земле вычислить байесовский метод. Если он готов пойти на риск быть «забронированным по-голландски», а также считает, что потенциальная стоимость достаточно мала, то для него рационально предлагать ставки, используя методы Frequentist.

Это рационально для вас , чтобы быть агностиком , потому что ваши эмоциональные предпочтения считают , что лучше для вас. Неразумно быть агностиком в этой области, если вы не верите, что все люди разделяют ваши эмоциональные и когнитивные предпочтения, что, как мы знаем, не так.

Короче говоря, я не понимаю, какова математическая основа для дебатов Байеса против частых, и если нет математической основы для дебатов (как утверждает Википедия), я не понимаю, почему они вообще допускаются в академический дискурс.

Цель академической дискуссии - пролить свет на старые и новые идеи. Большая часть дебатов Байеса и Frequentist и дебатов вероятности против Frequentist произошли из недопонимания и небрежного мышления. Некоторые пришли из-за неспособности назвать предпочтения, какие они есть. Обсуждение достоинств объективного оценщика и его непредвзятости по сравнению с предвзятым и точным оценщиком - это обсуждение эмоциональных предпочтений, но, пока кто-то не получит его, вполне вероятно, что его размышления будут оставаться грязными по всей области.

Я не люблю философию, но мне нравится математика, и я хочу работать исключительно в рамках аксиом Колмогорова.

Почему? Потому что ты предпочитаешь Колмогорова Коксу, де Финетти или Сэвиджу? Это предпочтение подкрадывается? Кроме того, вероятность и статистика не математика, они используют математику. Это ветвь риторики. Чтобы понять, почему это может иметь значение, рассмотрите ваше утверждение:

если метод является математически корректным, то он является допустимым для использования метода, когда выполняются предположения базовой математики, в противном случае, если он не является математически правильным или если предположения не выполняются, то его использование недопустимо.

Это неправда. Есть хорошая статья о доверительных интервалах и злоупотреблениях ее цитированием:

Мори, Ричард; Hoekstra, Rink; Роудер, Джеффри; Ли, Майкл; Вагенмакерс, Эрик-Ян, Ошибка уверенности в доверительных интервалах, Psychonomic Bulletin & Review, 2016, том 23 (1), с. 103-123.

Если вы прочтете разные потенциальные доверительные интервалы в статье, каждый из них математически верен, но если вы затем оцените их свойства, они будут существенно различаться. Действительно, некоторые из представленных доверительных интервалов можно считать имеющими «плохие» свойства, хотя они отвечают всем предположениям в проблеме. Если вы удалите байесовский интервал из списка и сосредоточитесь только на четырех интервалах Frequentist, тогда, если вы сделаете более глубокий анализ относительно того, когда интервалы являются широкими или узкими, или постоянными, то вы обнаружите, что интервалы не могут быть «равными» «хотя каждый отвечает своим предположениям и требованиям.

Недостаточно, чтобы оно было математически обоснованным, чтобы оно было полезным или, наоборот, настолько полезным, насколько это возможно. Точно так же это может быть математически верно, но вредно. В этой статье есть интервал, который является наиболее узким именно тогда, когда существует наименьшее количество информации об истинном местоположении, и самым широким, когда существует точное или почти идеальное знание о местоположении параметра. Независимо от этого, он отвечает требованиям покрытия и удовлетворяет предположениям.

Математика никогда не может быть достаточно.

Дейв Харрис
источник
Мне очень нравится вторая статья. (Заключение первой статьи было тем, о чем я уже слышал, и таким образом убедил меня, поэтому мне казалось, что читать его не нужно.) Я в основном согласен с тем, что вы говорите. Чтобы быть справедливым, когда я говорю «математика», я больше имел в виду значение «прикладная математика», а также неявное понимание того, что предметы и направления математического исследования, а также выбор математических аксиом предназначены для моделирования наблюдений за реальный мир. Кроме того, я не думаю, что вторая статья противоречит тому, что я говорю - авторы берут общие заблуждения, фраза
Chill2Macht
они математически (то есть точно, строго), а затем предоставляют контрпримеры, показывающие, что они являются ложными. То, что я пытался сказать (если я правильно помню о своих намерениях много месяцев назад), было то, что если ваша «философия» или «философская идея» или что-то еще не может быть сформулировано / сужено до точного утверждения, то есть сформулировано однозначно, тогда бесполезно разбрасываться. Например, часто встречающиеся, которые проводят различие между MLE (MAP с плоским предшествованием) и другими типами объективных априоров по неопределенным причинам - если ваше возражение не может быть
выражено
Во-первых, нет веской причины для того, чтобы высказать свое возражение, потому что оно слишком расплывчато, чтобы его можно было сфальсифицировать. То, что статистика «использует математику», на мой взгляд, не означает, что статистики оправданнее, чем математики. Математики все время спорят о том, какие математические аксиомы «целесообразны» или «интересны» для рассмотрения, как вы указываете, в конечном счете, основываясь только на эмоциональных предпочтениях. Но эти аргументы на самом деле способны
привести к
Например, можно ясно сказать, что интуиционисты отвергают использование закона исключенного посредника, в то время как другие математики согласны его использовать. Обратите внимание также на ожесточенные споры об Аксиоме выбора. Но и закон исключенной середины, и аксиома выбора являются точными утверждениями, которые, с учетом других точных предположений, могут быть сфальсифицированы, доказаны как фальсифицируемые, доказанные и т. Д. (Зависит от других предположений). То есть я пытался утверждать, что «философия» / «эмоция» должна вступать в игру только для того, чтобы установить предпочтения для различных однозначных / точных аксиом . As
Chill2Macht
по сравнению с тем, кто говорит «априоры плохие» и не дает математической аксиомы, которая, по их мнению, должна удовлетворять логическому выводу и которую логически может показывать, что выбор априора нарушает. Первый бесполезен, а второй конструктивен, потому что он дает оппонентам что-то конкретное для работы, например, возможность предложить альтернативную аксиому, которая им «кажется более разумной для этой проблемы». Вот почему мне действительно нравится вторая статья, на которую вы ссылаетесь, потому что она делает именно это - она «математизирует» ложные интерпретации КИ и доказывает, что они ложные.
Chill2Macht