Почему я должен быть байесовским, когда моя модель не так?

68

Редактирование: я добавил простой пример: вывод среднего значения . Я также немного разъяснил, почему достоверные интервалы, не соответствующие доверительным интервалам, являются плохими.Xi

Я, довольно набожный байесовский, нахожусь в разгар своего рода кризиса веры.

Моя проблема заключается в следующем. Предположим, что я хочу проанализировать некоторые данные IID . Что бы я сделал, это:Xi

  • во-первых, предложите условную модель:

    p(X|θ)
  • Затем выберите приоритет для : р ( θ )θ

    p(θ)
  • Наконец, примените правило Байеса, вычислите апостериор: (или некоторое приближение к нему, если оно не должно быть вычислено) и ответьте на все мои вопросы оθp(θ|X1Xn)θ

Это разумный подход: если истинная модель данных действительно находится «внутри» моего условного (это соответствует некоторому значению ), то я могу призвать статистическую теорию принятия решений сказать, что мой метод допустим (см. Роберт «Байесовский выбор» для деталей; «Вся статистика» также дает четкое описание в соответствующей главе).θ 0Xiθ0

Однако, как все знают, предполагать, что моя модель верна, довольно высокомерно: почему природа должна аккуратно попадать в рамки моделей, которые я рассмотрела? Гораздо более реалистично предположить, что реальная модель данных отличается от для всех значений . Обычно это называют «неправильно определенной» моделью.р ( Х | & thetas ; ) & thetas ;ptrue(X)p(X|θ)θ

Моя проблема заключается в том, что в этом более реалистичном ошибочно указанном случае у меня нет веских аргументов для того, чтобы быть байесовским (то есть: вычислять апостериорное распределение) по сравнению с простым вычислением Оценщика максимального правдоподобия (MLE):

θ^ML=argmaxθ[p(X1Xn|θ)]

В самом деле, согласно Kleijn, vd Vaart (2012) , в неправильно указанном случае заднее распределение:

  • сходится как к распределению Дирака с центром вthetas ; M Lnθ^ML

  • не имеет правильной дисперсии (если только два значения не совпадают), чтобы гарантировать, что достоверные интервалы апостериорных совпадают с доверительными интервалами для . (Обратите внимание, что, хотя доверительные интервалы, очевидно, являются чем-то, о чем байесовцы не заботятся чрезмерно, это качественно означает, что апостериорное распределение по своей сути неверно, поскольку подразумевает, что его достоверные интервалы не имеют правильного покрытия)θ

Таким образом, мы платим вычислительную премию (байесовский вывод, как правило, дороже, чем MLE) за отсутствие дополнительных свойств.

Таким образом, наконец, мой вопрос: есть ли какие-либо аргументы, теоретические или эмпирические, для использования байесовского вывода над более простой альтернативой MLE, когда модель неправильно определена?

(Поскольку я знаю, что мои вопросы часто неясны, пожалуйста, дайте мне знать, если вы что-то не понимаете: я попытаюсь перефразировать это)

Изменить: давайте рассмотрим простой пример: вывод среднего значения по гауссовой модели (с известной дисперсией чтобы упростить еще больше). Мы рассматриваем гауссовский : мы обозначаем предыдущее среднее, - обратную дисперсию априорного. Пусть - эмпирическое среднее . Наконец, обратите внимание: . σ μ 0 β 0 ˉ X X i μ = ( β 0 μ 0 + nXiσμ0β0X¯Xiμ=(β0μ0+nσ2X¯)/(β0+nσ2)

Заднее распределение:

p(θ|X1Xn)exp((β0+nσ2)(θμ)2/2)

В правильно указанном случае (когда действительно имеет гауссово распределение), этот апостериор имеет следующие приятные свойстваXi

  • Если генерируются из иерархической модели, в которой их общее среднее выбирается из предыдущего распределения, то последующие вероятные интервалы имеют точное покрытие. Условно на данных вероятность того, что находится в любом интервале, равна вероятности того, что апостериор приписывает этот интервал θXiθ

  • Даже если предшествующее значение неверно, достоверные интервалы имеют правильное покрытие в пределе в котором предшествующее влияние на заднюю часть исчезаетn

  • апостериор также обладает хорошими частотными свойствами: любой байесовский оценщик, построенный из апостериорного, гарантированно допустим, а заднее среднее является эффективной оценкой (в смысле Крамера-Рао) среднего, вероятные интервалы являются асимптотически доверительными интервалами.

В неправильно указанном случае большинство этих свойств не гарантируется теорией. Чтобы исправить идеи, давайте предположим, что настоящая модель для состоит в том, что они являются дистрибутивами Student. Единственное свойство, которое мы можем гарантировать (Kleijn et al), состоит в том, что апостериорное распределение концентрируется на действительном среднем значении в пределе . В общем, все свойства покрытия исчезнут. Хуже того, в целом мы можем гарантировать, что в этом пределе свойства покрытия в корне неверны: апостериорное распределение приписывает неправильную вероятность различным областям пространства.X i n XiXin

Гийом Дехене
источник
2
Ну, байесовские подходы упорядочены. Это что-то, чтобы помочь против переоснащения - независимо от того, неправильно ли указана ваша модель. Конечно, это только приводит к связанному вопросу об аргументах для байесовского вывода против регуляризованных классических подходов (лассо, ребристая регрессия, упругая сеть и т. Д.).
С. Коласса - Восстановить Монику
3
Возможно, вам будет интересна эта работа и ее родственники.
Дугал
7
Если ваша модель неверно определена с точки зрения использования неверной функции правдоподобия, тогда и MLE, и байесовские оценки будут неверными ...
Тим
5
@Tim: MLE и байесовский вывод не являются бессмысленными в неправильно указанном случае: они оба пытаются восстановить значение параметра которое дает наилучший счет данных в условных моделях. Точнее говоря, является аргументом где KL - дивергенция Кульбака Лейблера. Согласно мягким предположениям, MLE и байесовский вывод правильно идентифицируют этот когда предоставляется достаточное количество данных ~ & thetas ; 0КЛ[р(х),р(Х|thetas)]θ~0θ~0KL[p(X),p(X|θ)]θ~0
Гийом
3
@amoeba Я представляю себе злую байесовскую внешность и
Аксакал

Ответы:

31

Я рассматриваю байесовский подход, когда мой набор данных - это не все, что известно о предмете, и хочу каким-то образом включить эти экзогенные знания в мой прогноз.

Например, мой клиент хочет получить прогноз дефолта по кредиту в своем портфеле. У них есть 100 займов с несколькими годами квартальных исторических данных. Было несколько случаев просрочки (просрочка платежа) и всего пара дефолтов. Если я попытаюсь оценить модель выживания на этом наборе данных, это будет очень мало данных для оценки и слишком много неопределенности для прогноза.

С другой стороны, управляющие портфелем - это опытные люди, некоторые из которых могли потратить десятилетия на управление отношениями с заемщиками. У них есть идеи относительно того, какими должны быть ставки по умолчанию. Таким образом, они способны придумать разумные приоры. Обратите внимание, не те приоры, которые имеют хорошие математические свойства и выглядят интеллектуально привлекательными для меня . Я буду общаться с ними и извлекать их опыт и знания в виде этих приоров.

Теперь байесовская структура предоставит мне механику для объединения экзогенных знаний в форме априорных данных с данными и получения апостериорного значения, которое, на мой взгляд, превосходит как чисто качественное суждение, так и прогноз, основанный на чистых данных. Это не философия, и я не байесовский. Я просто использую байесовские инструменты, чтобы последовательно включать экспертные знания в оценку, основанную на данных.

Аксакал
источник
3
Очень хороший момент. Байесовский вывод действительно предлагает основу для решения именно такой задачи, как та, которую вы представили. Спасибо.
Гийом
5
Это общий аргумент для байесовского моделирования, но как это связано с конкретным случаем неправильно определенной модели? Я не вижу связи.
Ричард Харди
4
Что ж, это относится к моему вопросу: даже в неправильно указанном случае байесовский вывод действительно обрабатывает качественную информацию (то есть: более принципиально) с помощью предшествующих методов, чем методы MLE, которые должны работать с регуляризаторами. Это форма эмпирического аргумента относительно того, почему байесовский вывод немного лучше, чем MLE.
Гийом
2
@Aksakal, не указаны ли модели неправильно. Меня беспокоит то, что вы не отвечаете на вопрос. (Если ФП не согласен, то, я думаю, он плохо справился с формулировкой вопроса.) Но я вижу, что недавно произошла правка, поэтому, возможно, вопрос уже изменился.
Ричард Харди
4
@RichardHardy, я думаю, что мой ответ входит в суть кризиса веры OP, который вызван мыслью, что если ваша условная модель неверно определена, то она превзойдет предыдущее с увеличением размера выборки, а ваш апостериор будет подталкиваться к неправильной модели , В этом случае зачем беспокоиться о байесовском, а не просто о прямом MLE, спрашивает он. Мой пример определенно не философский, а практический: вы часто имеете дело не только с конечными, но с небольшими образцами. Таким образом, ваши данные не будут увлекать апостериор слишком далеко от предыдущего, что представляет собой экзогенное знание.
Аксакал
25

Очень интересный вопрос ... который может не иметь ответа (но это не делает его менее интересным!)

Несколько мыслей (и много ссылок на мои записи в блоге!) О том меме, что все модели ошибочны :

  1. Хотя гипотетическая модель действительно почти неизменно и непоправимо ошибочна , все же имеет смысл действовать эффективным или последовательным образом по отношению к этой модели, если это лучшее, что можно сделать. Результирующий вывод дает оценку формальной модели, которая является «наиболее близкой» к фактической модели генерирования данных (если таковая имеется);
  2. Существуют байесовские подходы, которые могут обойтись без модели , последним примером являются работы Bissiri et al. моими комментариями ) и Уотсоном и Холмсом (что я обсуждал с Джудит Руссо );
  3. Связным образом существует целая ветвь байесовской статистики, имеющая дело с M-открытым выводом ;
  4. И еще одно направление, которое мне очень нравится, - это подход SafeBayes Питера Грюнвальда , который учитывает ошибочную спецификацию модели, чтобы заменить вероятность уменьшенной версией, выраженной как сила первоначальной вероятности.
  5. В самой недавней статье « Чтение бумаги» Гельмана и Хеннига эта проблема решена, хотя и в замешательстве (и я добавил несколько комментариев в свой блог ). Я полагаю, вы могли бы собрать материал для обсуждения из записей о вашем вопросе.
  6. В некотором смысле байесовцы должны быть наименее обеспокоены среди статистиков и разработчиков моделей этим аспектом, поскольку модель выборки должна рассматриваться как одно из нескольких предыдущих предположений, а результат является условным или относительно всех этих предыдущих предположений.
Сиань
источник
2
Очень приятно иметь ваше мнение по этому поводу. Ваш первый пункт имеет интуитивный смысл: если модель не слишком ошибочна, то результат нашего вывода должен быть в порядке. Тем не менее, кто-нибудь когда-либо доказывал какой-либо результат, подобный этому (или исследовал вопрос эмпирически)? Ваш последний пункт (который я, возможно, неправильно понял) оставляет меня в замешательстве: выборочная модель является критическим выбором. Тот факт, что мы также делаем выбор, не означает, что ошибки в выборе модели выборки не могут испортить всю модель. Спасибо за ссылки и замечательный блог.
Гийом
Для пункта 1., почему не усреднение байесовской модели? Зачем просто использовать «лучшую» модель?
innisfree
@innisfree: все зависит от того, что вы планируете делать с результатом, у меня нет религии относительно усреднения моделей по сравнению с лучшей моделью.
Сиань
1
Вы, кажется, предполагаете, что существует теоретический аспект усреднения неопределенности модели по сравнению с выбором только «лучшей» модели. Конечно, это всегда выгодно, т. Е. Помогает принимать лучшие решения, чтобы последовательно включать все неопределенности, включая модельные неопределенности.
Innisfree
2
Мое основное возражение против непараметрики - это практичность: они на несколько порядков дороже в вычислительном отношении по сравнению с более простыми альтернативами. Кроме того, разве мы не сталкиваемся с проблемами с непараметрическими параметрами, потому что для двух предыдущих дистрибутивов почти невозможно иметь общую поддержку? Это означает, что априор будет иметь сильное влияние и что байесовским статистикам (почти) будет невозможно договориться, начиная с разных априорных показателей.
Гийом
12

Изменения: Добавлена ​​ссылка на этот документ в теле, как это было запрошено ОП.


Здесь я даю ответ как наивный эмпирический байесовский.

Во-первых, апостериорное распределение позволяет вам делать вычисления, которые вы просто не можете сделать с простым MLE. Самым простым случаем является то, что сегодняшний апостериор - это завтрашний априор . Байесовский умозаключение, естественно, допускает последовательные обновления или, в общем, интерактивную или запоздалую комбинацию нескольких источников информации (включение априора - лишь один из примеров такой комбинации в учебнике). Байесовская теория принятия решений с нетривиальной функцией потерь является еще одним примером. Я бы не знал, что делать иначе.

Во-вторых, с помощью этого ответа я попытаюсь доказать, что мантра о том, что количественное определение неопределенности, как правило, лучше, чем отсутствие неопределенности, является фактически эмпирическим вопросом, поскольку теоремы (как вы упомянули и насколько я знаю) не дают никаких гарантий.

Оптимизация как игрушечная модель научной деятельности

Домен , что я чувствую себя в полной мере отражает сложность проблемы является очень практичным, без излишеств один, то оптимизация черного ящика функции . Мы предполагаем, что мы можем последовательно запросить точку и получить возможно шумное наблюдение , с помощью . Наша цель - максимально приблизиться к с минимальным количеством оценок функций.f:XRDRxXy=f(x)+εεN(0,σ2)x=argminxf(x)

Как вы можете ожидать, особенно эффективный способ - это построить прогностическую модель того, что произойдет, если я сделаю запрос к любому , и использовать эту информацию, чтобы решить, что делать дальше (либо локально или глобально). См. Rios and Sahinidis (2013) для обзора методов глобальной оптимизации без производных. Когда модель достаточно сложна, это называется метамоделью или суррогатной функцией или подходом поверхности отклика . Важно отметить, что модель может быть точечной оценкой (например, соответствием радиальной базисной сетевой функции нашим наблюдениям), или мы можем быть байесовскими и каким-то образом получить полное апостериорное распределение поxXff (например, через гауссовский процесс).

Байесовская оптимизация использует апостериорный над (в частности, условное заднее среднее значение и дисперсию в любой точке), чтобы направлять поиск (глобального) оптимума через некоторую принципиальную эвристику. Классический выбор - максимизировать ожидаемое улучшение по сравнению с текущей наилучшей точкой, но есть даже более причудливые методы, такие как минимизация ожидаемой энтропии в месте расположения минимума (см. Также здесь ).f

Эмпирический результат здесь заключается в том, что доступ к заднему плану, даже если он частично указан неправильно, обычно дает лучшие результаты, чем другие методы. (Существуют предостережения и ситуации, в которых байесовская оптимизация не лучше, чем случайный поиск, например, в больших измерениях.) В этой статье мы проводим эмпирическую оценку нового метода BO по сравнению с другими алгоритмами оптимизации, проверяя, удобно ли использовать BO на практике, с многообещающими результатами.

Поскольку вы спросили - это требует гораздо больших вычислительных затрат, чем другие не байесовские методы, и вы задались вопросом, почему мы должны быть байесовскими. Здесь предполагается, что затраты, связанные с оценкой истинного (например, в реальном сценарии, сложном инженерном или машинном обучении), намного больше, чем вычислительные затраты для байесовского анализа, поэтому байесовский эффект окупается .f

Чему мы можем научиться на этом примере?

Во-первых, почему Байесовская оптимизация вообще работает? Я предполагаю, что модель неправильная, но не та , и, как обычно, неправильность зависит от того, для чего ваша модель. Например, точная форма не имеет отношения к оптимизации, поскольку мы могли бы оптимизировать любое ее монотонное преобразование. Я предполагаю, что природа полна таких инвариантов. Таким образом, поиск, который мы делаем, может быть не оптимальным (т. Е. Мы отбрасываем хорошую информацию), но все же лучше, чем без информации о неопределенности.f

Во-вторых, наш пример подчеркивает, что вполне возможно, что полезность того, чтобы быть байесовским или нет, зависит от контекста , например, относительной стоимости и количества доступных (вычислительных) ресурсов. (Конечно, если вы хардкорный байесовский учитель, вы полагаете, что каждое вычисление является байесовским умозаключением по некоторому предварительному и / или приблизительному приближению.)

Наконец, главный вопрос - почему модели, которые мы используем, не так уж и плохи , в том смысле, что постеры все еще полезны, а не статистический мусор? Если мы возьмем теорему «Нет свободного обеда», то, очевидно, мы не сможем сказать много, но, к счастью, мы не живем в мире совершенно случайных (или случайно выбранных ) функций.

В общем, поскольку вы поставили «философский» тег ... Я думаю, мы вступаем в сферу проблемы индукции или необоснованной эффективности математики в статистических науках (в частности, нашей математической интуиции и способности определять модели). это работает на практике) - в том смысле, что с чисто априорной точки зрения нет никаких причин, по которым наши догадки должны быть хорошими или иметь какую-либо гарантию (и наверняка вы можете построить математические контрпримеры, в которых все идет не так, как надо), но они поворачиваются чтобы хорошо работать на практике.

lacerbi
источник
2
Потрясающий ответ. Большое спасибо за ваш вклад. Есть ли какое-либо рецензирование / достоверное сравнение байесовской оптимизации с обычными методами оптимизации, которые подчеркивают, что байесовская версия эмпирически лучше, как вы утверждаете? (Я вполне согласен с вами, но ссылка будет полезной)
Гийом
1
Спасибо! Я думаю, что вероятностные числовые призывы содержат несколько теоретических и эмпирических аргументов. Я не знаю ни одного эталона, который бы действительно сравнивал бы методы BO со стандартными методами, но [ предупреждение триггера: бесстыдный плагин ] В настоящее время я работаю над чем-то в этом направлении в области вычислительной нейробиологии; Я планирую опубликовать некоторые результаты на arXiv, надеюсь, в ближайшие несколько недель.
Lacerbi
Действительно, по крайней мере, их фигура 2 имеет четкое сравнение. Не могли бы вы добавить свою работу к основному вопросу, как только он выйдет? Я чувствую, что это было бы ценным дополнением.
Гийом
Да, это их метод адаптивной байесовской квадратуры, и это довольно крутая идея (на практике ее эффективность зависит от того, работает ли приближение GP; часто это почти эквивалентно тому, что у вас есть разумная параметризация вашей проблемы). Я добавлю ссылку на ответ, когда моя работа будет доступна, спасибо.
Lacerbi
1
@IMA: Извините, я не думаю, что я на 100% понимаю вашу точку зрения. Я воспринимал оптимизацию черного ящика как игрушечную модель научной деятельности. Я полагаю, что вы можете сопоставить многие шаги и проблемы «науки» с этой более простой (но все же невероятно сложной) областью. Для моего аргумента нет необходимости в предположении о «гауссовском шуме», это было просто для простоты. Реальные проблемы оптимизации (например, в проектировании) могут быть искажены негауссовским шумом, и это то, что нужно решать. И гауссовские процессы не нуждаются в гауссовском шуме наблюдения (хотя это делает вывод легким).
Lacerbi
10

Я вижу это только сегодня, но, тем не менее, думаю, что мне следует скинуться, учитывая, что я в некотором роде эксперт и что как минимум в двух ответах (№ 3 и 20 (спасибо за ссылку на мою работу Сиань!)) Упоминается моя работа над SafeBayes - в частности, Г. и ван Оммен, «Несоответствие байесовского вывода для ошибочно определенных линейных моделей и предложение по его исправлению» (2014). И я также хотел бы добавить кое-что к комментарию 2:

2 говорит: (преимущество Байеса при неправильной спецификации заключается в ...) «Ну, байесовские подходы упорядочены. Это что-то, что помогает против переоснащения - независимо от того, неверна ли ваша модель. Конечно, это просто приводит к связанному вопросу о аргументы в пользу байесовского вывода против регуляризованных классических подходов (лассо и т. д.)

Это правда, но важно добавить, что байесовские подходы не могут достаточно упорядочить если модель не права. Это основной смысл работы с Ван Омменом - мы видим там, что стандартные байесовские модели довольно ужасно пересекаются в некотором контексте регрессии с ошибочными, но очень полезными моделями. Не так плохо, как MLE, но все же слишком много, чтобы быть полезным. В теоретическом машинном обучении (частом и теоретико-игровом) есть целый ряд работ, где они используют методы, аналогичные методам Байеса, но с гораздо меньшей «скоростью обучения», что делает предшествующее больше и данные менее важными, таким образом, упорядочивая больше. Эти методы разработаны для того, чтобы хорошо работать в наихудших ситуациях (неправильная спецификация и, что еще хуже, противоборствующие данные) - подход SafeBayes предназначен для «изучения оптимальной скорости обучения» из самих данных - и этой оптимальной скорости обучения, то есть оптимального количества регуляризации,

Относительно этого, существует народная теорема (упомянутая несколькими выше), в которой говорится, что байесовский анализ будет иметь заднюю концентрацию на распределении, наиболее близком в расхождении КЛ с «истиной». Но это имеет место только при очень строгих условиях - НАМНОГО более строгих, чем условия, необходимые для сходимости в хорошо определенном случае. Если вы имеете дело со стандартными параметрическими низкоразмерными моделями и данные находятся в соответствии с некоторым распределением (не в модели), то апостериорные значения действительно сконцентрированы вокруг точки в модели, которая наиболее близка к истине в дивергенции KL. Теперь, если вы имеете дело с большими непараметрическими моделями, и модель верна, то (по существу) ваш апостериор будет по-прежнему концентрироваться вокруг истинного распределения, учитывая достаточно данных, до тех пор, пока ваш предшественник поместит достаточную массу в маленькие шарики KL вокруг истинного распределения. Этослабое условие, необходимое для сходимости в непараметрическом случае, если модель верна.

Но если ваша модель непараметрическая, но неверная, апостериор может просто не концентрироваться вокруг ближайшей точки KL, даже если ваш предшествующий уровень помещает туда массу, близкую к 1 (!) - ваш апостериор может оставаться запутанным навсегда, концентрируясь на постоянно различных распределениях с течением времени, но никогда не вокруг лучшего. В моих работах у меня есть несколько примеров этого. Статьи, которые показывают сходимость при неправильной спецификации (например, Клейн и Ван дер Ваарт), требуют много дополнительных условий, например, модель должна быть выпуклой или предшествующая должна подчиняться определенным (сложным) свойствам. Это то, что я имею в виду под «строгими» условиями.

На практике мы часто имеем дело с параметрическими, но очень многомерными моделями (например, регрессия байесовского гребня и т. Д.). Тогда, если модель неверна, в конечном итоге ваш апостериор сконцентрируется на лучшем KL-распределении в модели, но мини-версия непараметрического несоответствия все еще остается в силе: может потребоваться на несколько порядков больше данных, прежде чем произойдет конвергенция - снова моя статья с Ван Оммен приводит примеры.

Подход SafeBayes модифицирует стандартные байесы таким образом, чтобы гарантировать сходимость в непараметрических моделях при (по существу) тех же условиях, что и в хорошо определенном случае, то есть достаточной априорной массе вблизи KL-оптимального распределения в модели (G. and Mehta, 2014 ).

Тогда возникает вопрос о том, есть ли у Байеса даже обоснование под неправильной спецификацией. ИМХО (и как уже упоминалось несколькими людьми выше), стандартные обоснования Байеса (допустимость, Сэвидж, Де Финетти, Кокс и т. Д.) Здесь не действуют (потому что, если вы понимаете, что ваша модель неверно определена, ваши вероятности не отражают ваши истинные убеждения !). ОДНАКО многие байесовские методы также можно интерпретировать как «методы минимальной длины описания (MDL)» - MDL является теоретико-информационным методом, который приравнивает «изучение данных» к «попытке сжать данные настолько, насколько это возможно». Эта интерпретация сжатия данных (некоторых) байесовских методов остается действительной при неправильной спецификации. Так что еще естьосновная интерпретация, которая сохраняется при неправильной спецификации - тем не менее, есть проблемы, как показывает моя статья с ван Омменом (и проблема доверительного интервала / вероятного множества, упомянутая в оригинальном посте).

И затем последнее замечание по поводу первоначального поста: вы упомянули обоснование «приемлемости» Байеса (возвращаясь к полному уроку Уолда 1940–50-х годов). Является ли это действительно оправданием Байеса, на самом деле очень сильно зависит от точного определения «байесовского вывода» (которое отличается от исследователя к исследователю ...). Причина в том, что эти результаты допустимости допускают возможность того, что кто-то использует априор, который зависит от таких аспектов проблемы, как размер выборки, интересующая функция потерь и т. Д. Большинство «настоящих» байесов не хотели бы менять свой априор, если количество данные они должны обрабатывать изменения, или если интересующая функция потерь внезапно изменяется. Например, со строго выпуклыми функциями потерь, минимаксные оценки также допустимы - хотя обычно их не считают байесовскими! Причина в том, что для каждого фиксированного размера выборки они эквивалентны байесовскому с определенным априором, но априор отличается для каждого размера выборки.

Надеюсь, это полезно!

Петер Грюнвальд
источник
2
Добро пожаловать в CrossValidated и спасибо за ответ на этот вопрос. Небольшое примечание - вы не можете полагаться на ответы, отсортированные в том порядке, в котором вы их видите; разные люди могут сортировать по разным порядкам (есть выбор разных критериев сортировки в верхней части самого высокого положения ответа), и два из этих критериев меняются со временем. То есть, если вы называете их «№ 3 и 20», люди не будут знать, какие ответы вы имеете в виду. [Я могу также найти только десять ответов.]
Glen_b
1
Спасибо за отличный ответ, Питер. Я смущен вашим комментарием о том, что байесовский вывод в случае с неправильной спецификацией требует очень веских допущений. На какие предположения вы явно ссылаетесь? Вы говорите об условии, что апостериор должен сходиться к распределению Дирака по наилучшему значению параметра? или вы говорите о более технических условиях вероятности, которые обеспечивают асимптотическую нормальность?
Гийом
Хорошо, спасибо Glen B (модератор) - я буду помнить это с этого момента.
Питер Грюнвальд
Гийом - Я обновляю вышеупомянутое, чтобы учесть ваш комментарий
Питер Грюнвальд
7

Существует обычный компромисс отклонения. Байесовский вывод в предположении М-замкнутого случая [1,2] имеет меньшую дисперсию [3], но в случае неправильной спецификации модели смещение растет быстрее [4]. Также возможно сделать байесовский вывод, предполагая M-открытый случай [1,2], который имеет более высокую дисперсию [3], но в случае неправильной спецификации модели смещение меньше [4]. Дискуссии об этом компромиссном отклонении между байесовскими М-закрытыми и М-открытыми случаями также встречаются в некоторых ссылках, включенных в ссылки ниже, но явно существует необходимость в большем.

[1] Бернардо и Смит (1994). Байесовская теория. Джон Вили \ & Сыновья.

[2] Вехтари и Оянен (2012). Обзор байесовских прогностических методов для оценки, выбора и сравнения моделей. Статистические обзоры, 6: 142-228. http://dx.doi.org/10.1214/12-SS102

[3] Юхо Пийронен и Аки Вехтари (2017). Сравнение байесовских прогностических методов для выбора модели. Статистика и вычисления, 27 (3): 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .

[4] Яо, Вехтари, Симпсон и Эндрю Гельман (2017). Использование суммирования для усреднения байесовских прогностических распределений. Препринт arXiv arXiv: 1704.02030 arxiv.org/abs/1704.02030

Аки Вехтари
источник
7

Вот несколько других способов обоснования байесовского вывода в неправильно определенных моделях.

  • Вы можете построить доверительный интервал по последнему среднему значению, используя формулу сэндвича (так же, как вы делали бы с MLE). Таким образом, даже если достоверные наборы не имеют покрытия, вы все равно можете получить действительные доверительные интервалы для точечных оценок, если это то, что вас интересует.

  • Вы можете изменить масштаб апостериорного распределения, чтобы обеспечить охват достоверных множеств, что является подходом, принятым в:

Мюллер, Ульрих К. «Риск байесовского вывода в неправильно определенных моделях и ковариационная матрица сэндвича». Econometrica 81,5 (2013): 1805-1849.

  • Существует неасимптотическое обоснование для правила Байеса: опуская технические условия, если приоритет равен , а логарифмическое правдоподобие равно , то апостериор - это распределение, которое минимизирует над все распределения . Первый термин похож на ожидаемую полезность: вы хотите указать массу параметров, которые дают высокую вероятность. Второй член регуляризован: вы хотите небольшую дивергенцию KL к предыдущему. Эта формула явно говорит о том, что апостериор оптимизирует. Он часто используется в контексте квази-правдоподобия, где люди заменяют лог-правдоподобие другой функцией полезности.p(θ)n(θ)n(θ)dν(θ)+log(ν(θ)p(θ))dν(θ)ν(θ)
Пьеро
источник
Спасибо за статью Мюллера: я думаю, что она отвечает на многие вопросы, которые у меня есть.
Гийом
6

Предположим, что реальная модель данных отличается от для всех значенийptrue(X)p(X|θ)θ

Байесовская интерпретация этого предположения является то , что существует дополнительный случайная величина и значение в диапазоне такое , что . Ваши предыдущие знания говорят, что и . Тогда что не является правильным распределением вероятности.ϕϕ0ϕ0p(X|θ,ϕ=ϕ0)dθ=0p(ϕ=ϕ0)1p(ϕϕ0)=0p(θ|X,ϕ=ϕ0)=0

Этот случай соответствует аналогичному правилу вывода в логике, где , то есть вы ничего не можете вывести из противоречия. Результат - это способ, которым байесовская теория вероятностей говорит вам, что ваши предыдущие знания не согласуются с вашими данными. Если кто-то не смог получить этот результат при выводе апостериорного значения, это означает, что формулировка не смогла закодировать все соответствующие предшествующие знания. Что касается оценки этой ситуации, я передаю Джейнсу (2003, стр. 41):A,¬Ap(θ|X,ϕ=ϕ0)=0

... это мощный аналитический инструмент, который может искать набор предложений и обнаруживать в них противоречие, если оно существует. Принцип состоит в том, что вероятности, обусловленные противоречивыми предпосылками, не существуют (пространство гипотез сводится к пустому множеству). Поэтому заставьте нашего робота работать; напр., напишите компьютерную программу для вычисления вероятностей условных на множестве предложений Даже если из проверки не видно противоречия, если в скрыто противоречиеp(B|E)E=(E1,E2,,En)E, компьютерная программа потерпит крах. Мы обнаружили это «эмпирически», и после некоторой мысли осознали, что это не причина для беспокойства, а скорее ценный диагностический инструмент, который предупреждает нас о непредвиденных особых случаях, когда наша формулировка проблемы может нарушиться.

Другими словами, если ваша формулировка проблемы неточна - если ваша модель неверна, байесовская статистика может помочь вам понять, что это так, и может помочь вам определить, какой аспект модели является источником проблемы.

На практике может быть не совсем понятно, какие знания актуальны и должны ли они быть включены в деривацию. Различные методы проверки моделей (главы 6 и 7 в Gelman et al., 2013, предоставляют обзор) затем используются для выявления и выявления неточной формулировки проблемы.

Gelman, A., Carlin, JB, Stern, HS, Dunson, DB, Vehtari, A. & Rubin, DB (2013). Байесовский анализ данных, третье издание. Чепмен и Холл / CRC.

Jaynes, ET (2003). Теория вероятностей: логика науки. Издательство Кембриджского университета.

Матус
источник
1
В вашем ответе упущен смысл и рассматривается более простая ситуация. Я не рассматриваю ситуацию, в которой наша модель настолько ошибочна, что не соответствует данным. Я смотрю на ситуацию, в которой наша модель ошибочна, но не катастрофически. Например, рассмотрим вывод среднего значения . Вы можете использовать гауссову модель для вывода, даже если реальная модель - Лаплас. В этом простом примере модель неверна, но не будет «взрываться», как то, что вы описываете. XiXi
Гийом
1
@GuillaumeDehaene Ваш вопрос заключался в том, есть ли какие-либо аргументы для использования байесов, когда модель не указана. Ясно, что катастрофически неправильно определенная модель неверно определена. Кроме того, вы не можете априори знать, является ли ваша модель катастрофически неверной или просто ошибочной. На самом деле Байес может сказать вам именно это, что делает его полезным, и мой ответ указал на это.
17
Если это не катастрофически неправильно, то охват не будет так сильно отличаться от . Вы можете написать симуляцию этой нормальной модели с лапласовыми данными, чтобы проверить это. Концептуальные выгоды всегда будут присутствовать. Подумайте об этом: если вы решите выбросить заднюю часть окна, вы не рассчитаете только MLE, но также и некоторый доверительный интервал. Но мы знаем, что интерпретация КИ, рассчитанная для ОДНОГО конкретного эксперимента, является грязной. Так что расслабьтесь и наслаждайтесь байесовским пивом. Если вы понимаете, что модель не указана, используйте эту информацию, чтобы создать лучшую. 1α
Дзен
@GuillaumeDehaene Да, мой ответ не является исчерпывающим. Я с удовольствием расширяю его, чтобы прояснить не катастрофические случаи, но Вам необходимо указать, что Вы имеете в виду: Вы имеете в виду, что где - это небольшое число, так что мало? Или Вы говорите, что существует такое, что еще или что-то другое? Я согласен с дзен, что в целом, в этих менее тяжелых случаях, как правило, задняя часть не будет сильно затронута, хотя можно построить пограничный случай. k p ( X | ϕ = ϕ 0 ) θ = θ 0 p (p(X,θ|ϕ=ϕ0)dθ=kkp(X|ϕ=ϕ0)θ=θ0p(θ=θ0|ϕ=ϕ0)=0p(X,θ=θk|ϕ=ϕ0)>0
Матус
5

MLE все еще является оценщиком для параметра в модели, которую вы указали и считаете верной. Коэффициенты регрессии в OLS для часто используемых пользователей можно оценить с помощью MLE, и все свойства, которые вы хотите прикрепить к нему (беспристрастный, конкретная асимптотическая дисперсия), все еще предполагают, что ваша очень специфическая линейная модель верна.

Я собираюсь сделать еще один шаг вперед и сказать, что каждый раз, когда вы хотите приписать значение и свойства оценщику, вы должны принять модель. Даже если вы берете простое среднее значение, вы предполагаете, что данные могут быть обменены и часто IID.

Теперь байесовские оценщики обладают многими желательными свойствами, которых MLE может не иметь. Например, частичное объединение, регуляризация и интерпретируемость апостериора, которые делают его желательным во многих ситуациях.

TrynnaDoStat
источник
Вам не нужно принимать IID для того, чтобы придать смысл. Достаточно предположить возможность обмена (но, да, это все еще предположение ...)
kjetil b halvorsen
@kjetil b halvorsen Спасибо, я отредактировал для ясности.
TrynnaDoStat
4

Я рекомендую Gelman & Shalizi's Philosophy и практику байесовской статистики . У них есть последовательные, подробные и практические ответы на эти вопросы.

Мы считаем, что большая часть этого полученного взгляда на байесовский вывод неверна. Байесовские методы не более индуктивны, чем любой другой способ статистического вывода. Байесовский анализ данных гораздо лучше понят с гипотезо-дедуктивной точки зрения . В лучшей байесовской практике скрыта позиция, которая имеет много общего с ошибочно-статистическим подходом Мейо (1996), несмотря на его частую ориентацию. Действительно, важные части анализа байесовских данных, такие как проверка моделей, могут пониматься как «пробники ошибок» в смысле Мейо.

Мы исходим из комбинации изучения конкретных случаев анализа байесовских данных в эмпирических исследованиях в области социальных наук и теоретических результатов о согласованности и конвергенции байесовских обновлений. Социально-научный анализ данных особенно важен для наших целей, потому что существует общее согласие, что в этой области все используемые модели ошибочны - не просто фальсифицируемые, но фактически ложные. При наличии достаточного количества данных - и часто только довольно небольшого количества - любой аналитик может отклонить любую используемую в настоящее время модель на любой желаемый уровень достоверности . Подгонка модели, тем не менее, является ценной деятельностью, и, действительно, суть анализа данных. Чтобы понять, почему это так, нам нужно изучить, как модели строятся, подгоняются, используются и проверяются, а также влияние неправильной спецификации на модели.

...

По нашему мнению, изложение последнего абзаца [стандартного байесовского представления] в корне ошибочно. Процесс анализа данных - байесовский или иной - не заканчивается расчетом оценок параметров или апостериорных распределений. Скорее, модель может быть проверена путем сравнения значений подобранной модели с эмпирическими данными, Один из них задает вопросы, такие как, похоже ли моделирование из подобранной модели на исходные данные, согласуется ли подобранная модель с другими данными, не используемыми при подборе модели, и являются ли переменные, которые модель говорит, шумом («условия ошибки») в Факт отображения легко обнаруживаемых шаблонов. Расхождения между моделью и данными могут быть использованы для изучения того, каким образом модель не подходит для научных целей, и, таким образом, для мотивации расширений и изменений в модели (раздел 4.).

Алекс Ковентри
источник
2

Я думаю, что вы описываете влияние неопределенности модели - вы беспокоитесь, что ваш вывод о неизвестном параметре в свете данных зависит от модели , а также от данных. Что если неправдоподобная модель? Если существуют альтернативные модели с тем же неизвестным параметром , то вы можете изолировать неопределенность модели с помощью усреднения байесовской модели, хотя это функционал рассматриваемых моделей и их априоров.xdm

p(x|d,m),
mx
p(x|d)=mp(x|d,m)p(m|d)

Если, с другой стороны, определение параметра неразрывно связано с моделью , так что альтернатив нет, неудивительно, что выводы о обусловлены . xmxm

Innisfree
источник
3
Усреднение моделей не может спасти нас: все еще глупо предполагать, что истинная модель каким-то образом аккуратно попадает в рамки нашей более крупной модели. С помощью сравнения моделей мы можем определить, какая из нескольких моделей дает наилучший отчет о данных, но это просто возвращает неправильную модель, которая менее неправильна, чем другие модели.
Гийом
Это может помочь вам сделать выводы / оценки относительно неизвестного количества, которые последовательно включают неопределенность модели. Однако он не может выдумать для вас новые гипотезы. Если бы существовал статистический механизм, который изобрел модели в свете данных, например, наука была бы намного проще.
Innisfree
1

Как вы определяете, что такое «неправильно определенная» модель? Означает ли это модель ...

  • делает "плохие" прогнозы?
  • не имеет форму для некоторой "истинной модели"? pT(x)
  • отсутствует параметр?
  • приводит к «плохим» выводам?

Если вы думаете о способах неправильного определения данной модели, вы, по сути, будете извлекать информацию о том, как сделать лучшую модель. Включите эту дополнительную информацию в вашу модель!

Если вы думаете о том, что такое «модель» в байесовской структуре, вы всегда можете создать модель, которая не может быть неверно определена. Один из способов сделать это - добавить дополнительные параметры в вашу текущую модель. Добавляя больше параметров, вы делаете вашу модель более гибкой и адаптируемой. Методы машинного обучения в полной мере используют эту идею. Это лежит в основе таких вещей, как «сетевые сети» и «деревья регрессии». Вы должны подумать о приорах (похоже на регуляризацию для ML).

Например, вы дали «линейную модель» в качестве примера, поэтому у вас есть ... где . Теперь предположим, что мы добавляем новый параметр для каждого наблюдения .... Где как и раньше. Как это меняет вещи? Вы могли бы сказать, что «модель 1 задана неверно, если модель 2 верна». Но модель 2 сложнее оценить, поскольку она имеет гораздо больше параметров. Кроме того, если информация о является тем, что нас волнует, имеет ли значение, если модель 1 "неправильная"?
е я ~ N ( 0 , 1 ) модель 2:  х я = θ + σ е я

model 1: xi=θ+σei
eiN(0,1) eiN(0,1)θ
model 2: xi=θ+σeiwi

eiN(0,1)θ

Если вы предполагаете, что (как «модель 2a»), то мы в основном имеем «ошибки Коши» вместо «нормальных ошибок», и модель ожидает выбросы в данных. Следовательно, добавив параметры в вашу модель и выбрав для них приоритет, я создал «более надежную модель». Однако модель все еще ожидает симметрию в терминах ошибки. Выбирая другой априор, это можно учесть также ...wiN(0,1)

probabilityislogic
источник
И чем больше параметров вы используете, тем больше данных вам нужно. Если информация в о недостаточна, то добавление параметров не поможет. С новыми данными DGP становится еще менее постоянным, поэтому вам снова нужно больше параметров и так далее. Чем более общая ваша модель (больше параметров), тем менее вероятно, что она «неправильно указана», но тем больше данных вам нужно оценить. Напротив, чем меньше вы спрашиваете о своей модели, тем меньше данных вам нужно. Но на самом деле это означает, насколько «правильной» может быть модель, если полный апостериал, скажем, условный момент? ф ( х )xf(x)
IMA