Из того, что я прочитал, и из ответов на другие вопросы, которые я здесь задавал, многие так называемые методы частых ответов математически соответствуют ( мне все равно, соответствуют ли они философски , меня интересует только, соответствует ли это математически) особым случаям так называемых Байесовские методы (для тех, кто возражает против этого, см. Примечание внизу этого вопроса). Этот ответ на связанный вопрос (не мой) подтверждает этот вывод:
Большинство методов Frequentist имеют байесовский эквивалент, который в большинстве случаев даст по существу тот же результат.
Обратите внимание, что в дальнейшем математически одно и то же означает получение одинакового результата. Если вы характеризуете два метода, которые, как можно доказать, всегда дают одинаковые результаты как «разные», это ваше право, но это философское, а не математическое и не практическое решение.
Однако многие люди, которые называют себя «байесовцами», по-видимому, отвергают использование оценки максимального правдоподобия при любых обстоятельствах, даже если это особый случай ( математически ) байесовских методов, потому что это «метод частоты». Очевидно, байесовцы также используют ограниченное / ограниченное количество распределений по сравнению с частыми пользователями, хотя эти распределения также были бы математически правильными с байесовской точки зрения.
Вопрос: когда и почему байесовцы отвергают методы, математически правильные с байесовской точки зрения? Есть ли какое-то оправдание этому, которое не является «философским»?
Предпосылки / Контекст: Ниже приведены цитаты из ответов и комментариев к моему предыдущему вопросу о CrossValidated :
Математическая основа байесовских и частых дебатов очень проста. В байесовской статистике неизвестный параметр рассматривается как случайная величина; в статистике часто это рассматривается как фиксированный элемент ...
Исходя из вышеизложенного, я бы пришел к выводу, что ( математически ) байесовские методы являются более общими, чем частотные, в том смысле, что частотные модели удовлетворяют всем тем же математическим предположениям, что и байесовские, но не наоборот. Тем не менее, тот же ответ утверждал, что мой вывод из вышесказанного был неверным (акцент в последующем мой):
Хотя константа является частным случаем случайной величины, я бы не решился сделать вывод, что байесовский подход носит более общий характер. Вы не получите частых результатов от байесовских, просто сложив случайную переменную до константы. Разница более глубокая ...
Переходя к личным предпочтениям ... Мне не нравится, что байесовская статистика использует довольно ограниченное подмножество доступных дистрибутивов.
Другой пользователь в своем ответе заявил обратное, что байесовские методы носят более общий характер, хотя, как ни странно, лучшая причина, по которой я смог найти причину, была в предыдущем ответе, который дал кто-то, обученный как частый.
Математическое следствие состоит в том, что частые люди считают, что базовые уравнения вероятности применимы только иногда, а байесовские считают, что они всегда применимы. Таким образом, они рассматривают одни и те же уравнения как правильные, но различаются по тому, насколько они общие ... Байесовский строго более общий, чем Frequentist. Поскольку может быть неопределенность в отношении любого факта, любому факту может быть назначена вероятность. В частности, если факты, над которыми вы работаете, относятся к частотам реального мира (как к чему-то, что вы предсказываете, или к части данных), тогда байесовские методы могут рассматривать и использовать их так же, как и любой другой факт в реальном мире. Следовательно, любая проблема, с которой сталкиваются частые пользователи, считает, что их методы применимы к байесовским методам.
Из приведенных выше ответов у меня сложилось впечатление, что обычно используется как минимум два разных определения термина Байесовский. Первый я бы назвал «математически байесовским», который охватывает все методы статистики, поскольку он включает параметры, которые являются постоянными значениями RV, и параметры, которые не являются постоянными значениями RV. Кроме того, существует «культурно-байесовский», который отвергает некоторые «математически байесовские» методы, потому что эти методы являются «частыми» (т.е. из-за личной неприязни к параметру, который иногда моделируется как константа или частота). Другой ответ на вышеупомянутый вопрос также, кажется, поддерживает эту гипотезу:
Также следует отметить, что существует множество различий между моделями, используемыми в двух лагерях, что больше связано с тем, что было сделано, чем с тем, что можно сделать (т.е. многие модели, которые традиционно используются одним лагерем, могут быть оправданы другим лагерем ).
Поэтому я думаю, что другой способ сформулировать мой вопрос был бы следующим: почему культурные байесовцы называют себя байесовскими, если они отвергают многие математически байесовские методы? И почему они отвергают эти математически байесовские методы? Это личная неприязнь к людям, которые чаще всего используют эти конкретные методы?
дать одинаковые значения для оценки, они математически эквивалентны, потому что они имеют одинаковые свойства . Возможно, философское различие относится к вам лично, но оно не относится к этому вопросу.
Примечание. Первоначально этот вопрос содержал неверную характеристику оценки MLE и оценки MAP с единым предварительным значением.
источник
Ответы:
Я хотел бы исправить ошибочное предположение в первоначальном посте, ошибка, которая встречается довольно часто. ОП говорит:
И записка внизу поста гласит:
Мое возражение заключается в том, что философия в стороне, оценка максимального правдоподобия (MLE) и оценка максимального апостериорного (MAP) не имеют одинаковых математических свойств.
Важно отметить, что MLE и MAP по-разному трансформируются при (нелинейной) репараметризации пространства. Это происходит потому, что MLE имеет «плоский априор» в каждой параметризации, а MAP - нет (априор преобразуется как плотность вероятности , поэтому существует термин Якобиана).
Определение математического объекта включает в себя поведение объекта в таких операторах, как преобразование переменных (например, см. Определение тензор ).
В заключение, MLE и MAP - это не одно и то же ни философски, ни математически; это не мнение.
источник
Лично я скорее «прагматик», чем «частик» или «байесовец», поэтому я не могу претендовать на то, чтобы выступать в любом лагере.
Тем не менее, я думаю, что различие, на которое вы ссылаетесь, вероятно, не столько MLE против MAP, сколько между точечными оценками и оценками задних PDF-файлов . Как ученый, работающий в области с редкими данными и большими неопределенностями, я могу сочувствовать нежеланию слишком сильно доверять результатам «наилучшего предположения», которые могут вводить в заблуждение, что приводит к самоуверенности.
С этим связано практическое различие между параметрическими и непараметрическими методами. Так, например, я думаю, что фильтрация Калмана и фильтрация частиц будут приняты как рекурсивная байесовская оценка . Но предположение Гаусса о фильтрации Калмана (параметрический метод) может дать очень вводящие в заблуждение результаты, если апостериор не является унимодальным. Для меня такие примеры инженерного проектирования показывают, где различия не являются ни философскими, ни математическими, но проявляются с точки зрения практических результатов (т. Е. Будет ли ваша автономная авария транспортного средства?). Для байесовских энтузиастов, с которыми я знаком, это отношение "посмотри, что работает" в инженерном стиле кажется преобладающим ... не уверенным, правда ли это в более широком смысле.
источник
Такие люди будут отвергать MLE как общий метод для точечных оценок. В особых случаях, когда у них была причина использовать единый априор и они хотели сделать максимальную апостериорную оценку, их вообще не беспокоило совпадение их расчетов с MLE.
Возможно, иногда, чтобы сделать их расчеты проще, но не с принципиальной точки зрения.
Безусловно, следует различать разные подходы к байесовскому выводу, но не этот. Если есть смысл, в котором байесианство носит более общий характер, то оно заключается в готовности применить концепцию вероятности к эпистемической неопределенности относительно значений параметров, а не только к случайной неопределенности процесса генерирования данных, которая является единственной проблемой, с которой часто сталкивается частота. Вывод для частых не является частным случаем байесовского умозаключения, и ни один из ответов или комментариев в « Есть ли какая-либо математическая основа для спора между байесовским и частым?подразумевают, что это так. Если бы в байесовском подходе вы рассматривали параметр как постоянную случайную переменную, вы получили бы один и тот же апостериор, какими бы ни были данные, - и сказать, что они постоянны, но вы не знаете, какое значение это имеет, не будет ничего говорить Стоит сказать. Подход, основанный на частоте, требует совершенно другой тактики и совсем не предполагает вычисления апостериорных распределений.
источник