Когда (и почему) байесовцы отвергают действительные байесовские методы? [закрыто]

9

Из того, что я прочитал, и из ответов на другие вопросы, которые я здесь задавал, многие так называемые методы частых ответов математически соответствуют ( мне все равно, соответствуют ли они философски , меня интересует только, соответствует ли это математически) особым случаям так называемых Байесовские методы (для тех, кто возражает против этого, см. Примечание внизу этого вопроса). Этот ответ на связанный вопрос (не мой) подтверждает этот вывод:

Большинство методов Frequentist имеют байесовский эквивалент, который в большинстве случаев даст по существу тот же результат.

Обратите внимание, что в дальнейшем математически одно и то же означает получение одинакового результата. Если вы характеризуете два метода, которые, как можно доказать, всегда дают одинаковые результаты как «разные», это ваше право, но это философское, а не математическое и не практическое решение.

Однако многие люди, которые называют себя «байесовцами», по-видимому, отвергают использование оценки максимального правдоподобия при любых обстоятельствах, даже если это особый случай ( математически ) байесовских методов, потому что это «метод частоты». Очевидно, байесовцы также используют ограниченное / ограниченное количество распределений по сравнению с частыми пользователями, хотя эти распределения также были бы математически правильными с байесовской точки зрения.

Вопрос: когда и почему байесовцы отвергают методы, математически правильные с байесовской точки зрения? Есть ли какое-то оправдание этому, которое не является «философским»?

введите описание изображения здесь

Предпосылки / Контекст: Ниже приведены цитаты из ответов и комментариев к моему предыдущему вопросу о CrossValidated :

Математическая основа байесовских и частых дебатов очень проста. В байесовской статистике неизвестный параметр рассматривается как случайная величина; в статистике часто это рассматривается как фиксированный элемент ...

Исходя из вышеизложенного, я бы пришел к выводу, что ( математически ) байесовские методы являются более общими, чем частотные, в том смысле, что частотные модели удовлетворяют всем тем же математическим предположениям, что и байесовские, но не наоборот. Тем не менее, тот же ответ утверждал, что мой вывод из вышесказанного был неверным (акцент в последующем мой):

Хотя константа является частным случаем случайной величины, я бы не решился сделать вывод, что байесовский подход носит более общий характер. Вы не получите частых результатов от байесовских, просто сложив случайную переменную до константы. Разница более глубокая ...

Переходя к личным предпочтениям ... Мне не нравится, что байесовская статистика использует довольно ограниченное подмножество доступных дистрибутивов.

Другой пользователь в своем ответе заявил обратное, что байесовские методы носят более общий характер, хотя, как ни странно, лучшая причина, по которой я смог найти причину, была в предыдущем ответе, который дал кто-то, обученный как частый.

Математическое следствие состоит в том, что частые люди считают, что базовые уравнения вероятности применимы только иногда, а байесовские считают, что они всегда применимы. Таким образом, они рассматривают одни и те же уравнения как правильные, но различаются по тому, насколько они общие ... Байесовский строго более общий, чем Frequentist. Поскольку может быть неопределенность в отношении любого факта, любому факту может быть назначена вероятность. В частности, если факты, над которыми вы работаете, относятся к частотам реального мира (как к чему-то, что вы предсказываете, или к части данных), тогда байесовские методы могут рассматривать и использовать их так же, как и любой другой факт в реальном мире. Следовательно, любая проблема, с которой сталкиваются частые пользователи, считает, что их методы применимы к байесовским методам.

Из приведенных выше ответов у меня сложилось впечатление, что обычно используется как минимум два разных определения термина Байесовский. Первый я бы назвал «математически байесовским», который охватывает все методы статистики, поскольку он включает параметры, которые являются постоянными значениями RV, и параметры, которые не являются постоянными значениями RV. Кроме того, существует «культурно-байесовский», который отвергает некоторые «математически байесовские» методы, потому что эти методы являются «частыми» (т.е. из-за личной неприязни к параметру, который иногда моделируется как константа или частота). Другой ответ на вышеупомянутый вопрос также, кажется, поддерживает эту гипотезу:

Также следует отметить, что существует множество различий между моделями, используемыми в двух лагерях, что больше связано с тем, что было сделано, чем с тем, что можно сделать (т.е. многие модели, которые традиционно используются одним лагерем, могут быть оправданы другим лагерем ).

Поэтому я думаю, что другой способ сформулировать мой вопрос был бы следующим: почему культурные байесовцы называют себя байесовскими, если они отвергают многие математически байесовские методы? И почему они отвергают эти математически байесовские методы? Это личная неприязнь к людям, которые чаще всего используют эти конкретные методы?

iдать одинаковые значения для оценки, они математически эквивалентны, потому что они имеют одинаковые свойства . Возможно, философское различие относится к вам лично, но оно не относится к этому вопросу.

Примечание. Первоначально этот вопрос содержал неверную характеристику оценки MLE и оценки MAP с единым предварительным значением.

Chill2Macht
источник
8
Pr(θ[0,1]y)θy
3
5
MLE и MAP не имеют одинаковых математических свойств. Если вы перепараметризуете свои переменные, MLE и MAP преобразуются по-разному (поскольку MLE имеет «плоский априор» в каждой параметризации, MAP - нет). Определение математического объекта включает в себя поведение объекта в таких операторах, как преобразование переменных (например, см. Определение тензор). Так что они не одно и то же.
Lacerbi
2
Я сделаю это (короткий) ответ, так как удивительно, что никто до сих пор не упомянул об этом. Я также должен был объяснить это много раз в прошлом, так как это тонкость, которую можно легко пропустить.
Lacerbi
4
Вы когда-нибудь играли в шашки с шахматным набором? Время от времени может случиться, что вы окажетесь в правильной шахматной позиции и сможете сделать легальный шахматный ход, который также будет легальным ходом шашек. Конечно, хороший шахматный ход не всегда будет хорошим шашечным ходом. И ты не будешь отказываться делать хорошие шашки, потому что это тоже шахматный ход. Это несколько отличается от описания игры в шахматы на французском, а не на английском языке, или от вращения доски так, что черные квадраты становятся белыми, или обмена начальными позициями и правилами, регулирующими ...
Scortchi - Восстановить Монику

Ответы:

12

Я хотел бы исправить ошибочное предположение в первоначальном посте, ошибка, которая встречается довольно часто. ОП говорит:

Из того, что я прочитал, и из ответов на другие вопросы, которые я задал здесь, оценка максимального правдоподобия математически соответствует (мне все равно, соответствует ли она философски, меня интересует только, соответствует ли она математически) максимальной априорной оценке с использованием единого априора ( для тех, кто возражает против этого, см. примечание внизу этого вопроса).

И записка внизу поста гласит:

Два объекта эквивалентны в математическом смысле, если они имеют одинаковые свойства, независимо от того, как они построены. [...]

Мое возражение заключается в том, что философия в стороне, оценка максимального правдоподобия (MLE) и оценка максимального апостериорного (MAP) не имеют одинаковых математических свойств.

Важно отметить, что MLE и MAP по-разному трансформируются при (нелинейной) репараметризации пространства. Это происходит потому, что MLE имеет «плоский априор» в каждой параметризации, а MAP - нет (априор преобразуется как плотность вероятности , поэтому существует термин Якобиана).

Определение математического объекта включает в себя поведение объекта в таких операторах, как преобразование переменных (например, см. Определение тензор ).

В заключение, MLE и MAP - это не одно и то же ни философски, ни математически; это не мнение.

lacerbi
источник
Я думаю, возможно, я упустил вашу точку зрения. Можно ли параметризовать модель так, чтобы точечные оценки из MLE не были равны оценкам из MAP с одинаковым априорным значением? (Понятно, что в случае MAP априор должен быть равномерным по отношению к текущей параметризации для того, чтобы равенство работало. Если вы репараметризуете модель, не изменяя априор, то в общем случае она больше не будет однородной.)
Кодиолог
1
@ Kodiologist: OP заявлял, что MAP и MLE - идентичные "математические объекты". Они не. Отдельные математические объекты могут быть равны в подпространстве (например, при заданной параметризации), но это не делает их идентичными. Вы могли бы сказать: «Мне нет дела до других параметризаций», но, ну, тогда вы накладываете сильное практическое ограничение, это уже не «просто» философская точка зрения, о которой первоначально спорил ФП.
Lacerbi
6

Лично я скорее «прагматик», чем «частик» или «байесовец», поэтому я не могу претендовать на то, чтобы выступать в любом лагере.

Тем не менее, я думаю, что различие, на которое вы ссылаетесь, вероятно, не столько MLE против MAP, сколько между точечными оценками и оценками задних PDF-файлов . Как ученый, работающий в области с редкими данными и большими неопределенностями, я могу сочувствовать нежеланию слишком сильно доверять результатам «наилучшего предположения», которые могут вводить в заблуждение, что приводит к самоуверенности.

С этим связано практическое различие между параметрическими и непараметрическими методами. Так, например, я думаю, что фильтрация Калмана и фильтрация частиц будут приняты как рекурсивная байесовская оценка . Но предположение Гаусса о фильтрации Калмана (параметрический метод) может дать очень вводящие в заблуждение результаты, если апостериор не является унимодальным. Для меня такие примеры инженерного проектирования показывают, где различия не являются ни философскими, ни математическими, но проявляются с точки зрения практических результатов (т. Е. Будет ли ваша автономная авария транспортного средства?). Для байесовских энтузиастов, с которыми я знаком, это отношение "посмотри, что работает" в инженерном стиле кажется преобладающим ... не уверенным, правда ли это в более широком смысле.

GeoMatt22
источник
1
Независимо от того, моделируется ли шум по Гауссу или из другого распределения, это не определяет, является ли метод параметрическим или непараметрическим.
Клифф А.Б.
1
Я думал о фильтрации частиц против фильтрации Калмана.
GeoMatt22
1
@CliffAB Я отредактировал свой ответ, чтобы, надеюсь, исправить непреднамеренное следствие, что «Gaussian <==> параметрический»
GeoMatt22
2
По моему опыту (совсем не полному!) Книги, нацеленные на инженеров в «технических» областях, как правило, больше похожи на это. Такие вещи, как робототехника и другие приложения, работающие в режиме реального времени, обычно быстро обнаруживают, когда что-то не работает. Вероятно, это номинально более Байесовский, но вероятностная робототехника Себастьяна Труна была для меня поучительной. Он парень из Udacity .
GeoMatt22
2
Я вообще не изучал эту область, но у меня сложилось впечатление, что большая часть классической инженерии надежности использует «частые» подходы, так что это также может быть область с прагматическими текстами?
GeoMatt22
6

Однако многие люди, которые называют себя «байесовцами», по-видимому, отвергают использование оценки максимального правдоподобия при любых обстоятельствах, даже если это особый случай (математически) байесовских методов, потому что это «метод частоты».

Такие люди будут отвергать MLE как общий метод для точечных оценок. В особых случаях, когда у них была причина использовать единый априор и они хотели сделать максимальную апостериорную оценку, их вообще не беспокоило совпадение их расчетов с MLE.

Очевидно, байесовцы также используют ограниченное / ограниченное количество распределений по сравнению с частыми пользователями, хотя эти распределения также были бы математически правильными с байесовской точки зрения.

Возможно, иногда, чтобы сделать их расчеты проще, но не с принципиальной точки зрения.

У меня сложилось впечатление, что существует, по крайней мере, два разных определения термина Байесовский, которые широко используются. Первый я бы назвал «математически байесовским», который охватывает все методы статистики, поскольку он включает параметры, которые являются постоянными значениями RV, и параметры, которые не являются постоянными значениями RV. Кроме того, существует «культурно-байесовский», который отвергает некоторые «математически байесовские» методы, потому что эти методы являются «частыми» (т.е. из-за личной неприязни к параметру, который иногда моделируется как константа или частота).

Безусловно, следует различать разные подходы к байесовскому выводу, но не этот. Если есть смысл, в котором байесианство носит более общий характер, то оно заключается в готовности применить концепцию вероятности к эпистемической неопределенности относительно значений параметров, а не только к случайной неопределенности процесса генерирования данных, которая является единственной проблемой, с которой часто сталкивается частота. Вывод для частых не является частным случаем байесовского умозаключения, и ни один из ответов или комментариев в « Есть ли какая-либо математическая основа для спора между байесовским и частым?подразумевают, что это так. Если бы в байесовском подходе вы рассматривали параметр как постоянную случайную переменную, вы получили бы один и тот же апостериор, какими бы ни были данные, - и сказать, что они постоянны, но вы не знаете, какое значение это имеет, не будет ничего говорить Стоит сказать. Подход, основанный на частоте, требует совершенно другой тактики и совсем не предполагает вычисления апостериорных распределений.

Scortchi - Восстановить Монику
источник
«Подход, основанный на частоте, требует совершенно другой тактики и совсем не предполагает вычисления апостериорных распределений» - это не моя точка зрения. Я не говорю о философских намерениях, я говорю о математической эквивалентности. Кто-то может сказать, что они «субтрактивист», потому что они только складывают и вычитают положительные числа, но отказываются использовать отрицательные числа, что является «негативистом». С философской точки зрения это может иметь место, но математически вычитание положительного числа - это то же самое, что добавление отрицательного числа.
Chill2Macht
Я пытаюсь сказать, что «математически Байесовский» будет как применять, так и не применять концепцию вероятности к эпистемической неопределенности относительно значений параметров. «Культурно-байесовский» будет только применять (и никогда не применять) концепцию вероятности к эпистемической неопределенности относительно значений параметров. «Частый» будет только не применять (и никогда не применять) вероятность к эпистемической неопределенности относительно значений параметров. Я хочу сказать, что «байесовский вывод = культурно байесовский» и «частый» кажутся особым случаем, основанным на том, что говорят люди.
Chill2Macht
В любом случае, я думаю, что я попытаюсь прочитать Асимптотическую статистику Ван дер Ваарта, прежде чем комментировать дальнейшую статистику, но, прочитав уже учебники Казеллы, Бергера и ноль Байеса, я не понимаю утверждения о том, что «подход к частоте принимает совершенно другую тактику» применение понятия вероятности к «просто случайной неопределенности процесса генерации данных», поскольку оно, кажется, противоречит другим частям того, что вы написали.
Chill2Macht
2
35
2
Режимы параметрического статистического вывода , & Barnett (1999), Сравнительный статистический вывод . (4) Частотный подход учитывает только вероятность данных при заданных значениях параметров; условия байесовского сближения по наблюдаемым данным для получения апостериорного.
Scortchi - Восстановить Монику