Правда ли, что байесовские методы не подходят больше?

25

Правда ли, что байесовские методы не подходят больше? (Я видел некоторые документы и учебные пособия, делающие это утверждение)

Например, если мы применяем гауссовский процесс к MNIST (классификация рукописных цифр), но показываем только одну выборку, будет ли он возвращаться к предыдущему распределению для любых входных данных, отличных от этой одной выборки, сколь бы мала разница?

MaxB
источник
просто думал - есть ли математически точный способ определения «перегонки»? если вы можете, скорее всего, вы также можете встроить функции в функцию правдоподобия или до того, чтобы избежать этого. я думаю, что это понятие звучит похоже на «выбросы».
вероятностная

Ответы:

25

Нет, это неправда. Байесовские методы, безусловно, будут соответствовать данным. Есть несколько вещей, которые делают байесовские методы более устойчивыми к переоснащению, и вы также можете сделать их более хрупкими.

Комбинаторный характер байесовских гипотез, а не бинарных гипотез, позволяет проводить множественные сравнения, когда кому-то не хватает «истинной» модели для методов нулевых гипотез. Байесовский апостериор эффективно наказывает увеличение структуры модели, например, добавление переменных при вознаграждении за улучшение прилегания. Штрафы и выгоды не являются оптимизацией, как это было бы в случае небайесовских методов, но смещают вероятности от новой информации.

Хотя это обычно дает более надежную методологию, существует важное ограничение, которое заключается в использовании надлежащих предыдущих дистрибутивов. Хотя существует тенденция подражать методам Frequentist с использованием плоских априорных значений, это не гарантирует правильного решения. Есть статьи о переоснащении в байесовских методах, и мне кажется, что грех, кажется, в том, чтобы пытаться быть «справедливым» по сравнению с не байесовскими методами, начиная с строго плоских априорных значений. Сложность в том, что априор важен для нормализации вероятности.

Байесовские модели являются по сути оптимальными моделями в смысле допустимости этого слова Уолдом, но здесь есть скрытый призрак. Уолд предполагает, что априор - это ваш истинный априор, а не какой-то априор, которым вы пользуетесь, чтобы редакторы не заставляли вас вкладывать в него слишком много информации. Они не являются оптимальными в том же смысле, что и модели Frequentist. Частые методы начинаются с оптимизации минимизации дисперсии, оставаясь при этом беспристрастной.

Это дорогостоящая оптимизация, поскольку она отбрасывает информацию и не является внутренне допустимой в смысле Вальда, хотя часто является допустимой. Таким образом, модели Frequentist обеспечивают оптимальное соответствие данных, учитывая непредвзятость. Байесовские модели не являются ни объективными, ни оптимальными для данных. Это торговля, которую вы совершаете, чтобы минимизировать перенастройку.

Байесовские модели являются смещенными по своей природе моделями, если не предпринимаются специальные шаги, чтобы сделать их беспристрастными, которые обычно хуже соответствуют данным. Их достоинство заключается в том, что они никогда не используют меньше информации, чем альтернативный метод, чтобы найти «истинную модель», и эта дополнительная информация делает байесовские модели никогда не менее рискованными, чем альтернативные модели, особенно при разработке выборки. Тем не менее, всегда будет существовать выборка, которая могла бы быть выбрана случайным образом и которая систематически «обманула бы» байесовский метод.

Что касается второй части вашего вопроса, если бы вы проанализировали одну выборку, апостериор был бы навсегда изменен во всех его частях и не вернулся бы к предыдущей, если бы не было второй выборки, которая точно аннулировала бы всю информацию в первый образец По крайней мере, теоретически это правда. На практике, если предварительная информация достаточно информативна, а наблюдение достаточно неинформативно, то влияние может быть настолько незначительным, что компьютер не сможет измерить различия из-за ограничения количества значащих цифр. Эффект может быть слишком маленьким для компьютера, чтобы обработать изменение в заднем.

Таким образом, ответ «да», вы можете переопределить выборку, используя байесовский метод, особенно если у вас небольшой размер выборки и неправильные априорные значения. Второй ответ - «нет». Теорема Байеса никогда не забывает о влиянии предыдущих данных, хотя эффект может быть настолько мал, что вы пропустите его в вычислительном отношении.

Дейв Харрис
источник
2
В Начинают с оптимизацией минимизации дисперсии, оставаясь беспристрастным. Что они ?
Ричард Харди
N(θ,σ2)σ
1
σ
11

Следует помнить, что, как и везде, серьезной проблемой байесовских методов может быть неправильная спецификация модели.

Это очевидный момент, но я решил поделиться историей.

Виньетка со спины в старшекурснике ...

Классическое применение байесовской фильтрации частиц - это отслеживание местоположения робота, перемещающегося по комнате. Движение увеличивает неопределенность, в то время как показания датчиков уменьшают неопределенность.

Я помню кодирование некоторых процедур для этого. Я написал разумную, теоретически мотивированную модель для вероятности наблюдения различных показаний сонара с учетом истинных значений. Все было точно выведено и красиво закодировано. Тогда я иду, чтобы проверить это ...

Что произошло? Полный провал! Зачем? Мой фильтр частиц быстро подумал, что показания датчика устранили почти всю неопределенность. Мое облако точек рухнуло до точки, но мой робот не обязательно был в этой точке!

По сути, моя функция правдоподобия была плохой; мои показания датчиков были не такими информативными, как я думал. Я был переоснащен. Решение? Я смешал в тонне больше гауссовского шума (довольно случайным образом), облако точек перестало разрушаться, и затем фильтрация работала довольно красиво.

Мораль?

Как сказал Бокс, «все модели ошибочны, но некоторые полезны». Почти наверняка у вас не будет функции истинного правдоподобия, и, если она достаточно отключена, ваш байесовский метод может оказаться ужасно ошибочным и переодеться.

Добавление предыдущего не решает магическим образом проблемы, возникающие из предположения, что наблюдения являются IID, когда они отсутствуют, если предположить, что вероятность имеет большую кривизну, чем она и т. Д ...

Мэтью Ганн
источник
3
"Виньетка со спины в старшекурснике ... Классическое применение байесовской фильтрации частиц состоит в том, чтобы отслеживать местоположение робота, когда он движется по комнате" ... эй, где был твой старшекурсник? :)
Клифф А.Б.