Редактирование: я добавил простой пример: вывод среднего значения . Я также немного разъяснил, почему достоверные интервалы, не соответствующие доверительным интервалам, являются плохими.
Я, довольно набожный байесовский, нахожусь в разгар своего рода кризиса веры.
Моя проблема заключается в следующем. Предположим, что я хочу проанализировать некоторые данные IID . Что бы я сделал, это:
во-первых, предложите условную модель:
Затем выберите приоритет для : р ( θ )
Наконец, примените правило Байеса, вычислите апостериор: (или некоторое приближение к нему, если оно не должно быть вычислено) и ответьте на все мои вопросы оθ
Это разумный подход: если истинная модель данных действительно находится «внутри» моего условного (это соответствует некоторому значению ), то я могу призвать статистическую теорию принятия решений сказать, что мой метод допустим (см. Роберт «Байесовский выбор» для деталей; «Вся статистика» также дает четкое описание в соответствующей главе).θ 0
Однако, как все знают, предполагать, что моя модель верна, довольно высокомерно: почему природа должна аккуратно попадать в рамки моделей, которые я рассмотрела? Гораздо более реалистично предположить, что реальная модель данных отличается от для всех значений . Обычно это называют «неправильно определенной» моделью.р ( Х | & thetas ; ) & thetas ;
Моя проблема заключается в том, что в этом более реалистичном ошибочно указанном случае у меня нет веских аргументов для того, чтобы быть байесовским (то есть: вычислять апостериорное распределение) по сравнению с простым вычислением Оценщика максимального правдоподобия (MLE):
В самом деле, согласно Kleijn, vd Vaart (2012) , в неправильно указанном случае заднее распределение:
сходится как к распределению Дирака с центром вthetas ; M L
не имеет правильной дисперсии (если только два значения не совпадают), чтобы гарантировать, что достоверные интервалы апостериорных совпадают с доверительными интервалами для . (Обратите внимание, что, хотя доверительные интервалы, очевидно, являются чем-то, о чем байесовцы не заботятся чрезмерно, это качественно означает, что апостериорное распределение по своей сути неверно, поскольку подразумевает, что его достоверные интервалы не имеют правильного покрытия)
Таким образом, мы платим вычислительную премию (байесовский вывод, как правило, дороже, чем MLE) за отсутствие дополнительных свойств.
Таким образом, наконец, мой вопрос: есть ли какие-либо аргументы, теоретические или эмпирические, для использования байесовского вывода над более простой альтернативой MLE, когда модель неправильно определена?
(Поскольку я знаю, что мои вопросы часто неясны, пожалуйста, дайте мне знать, если вы что-то не понимаете: я попытаюсь перефразировать это)
Изменить: давайте рассмотрим простой пример: вывод среднего значения по гауссовой модели (с известной дисперсией чтобы упростить еще больше). Мы рассматриваем гауссовский : мы обозначаем предыдущее среднее, - обратную дисперсию априорного. Пусть - эмпирическое среднее . Наконец, обратите внимание: . σ μ 0 β 0 ˉ X X i μ = ( β 0 μ 0 + n
Заднее распределение:
В правильно указанном случае (когда действительно имеет гауссово распределение), этот апостериор имеет следующие приятные свойства
Если генерируются из иерархической модели, в которой их общее среднее выбирается из предыдущего распределения, то последующие вероятные интервалы имеют точное покрытие. Условно на данных вероятность того, что находится в любом интервале, равна вероятности того, что апостериор приписывает этот интервал θ
Даже если предшествующее значение неверно, достоверные интервалы имеют правильное покрытие в пределе в котором предшествующее влияние на заднюю часть исчезает
апостериор также обладает хорошими частотными свойствами: любой байесовский оценщик, построенный из апостериорного, гарантированно допустим, а заднее среднее является эффективной оценкой (в смысле Крамера-Рао) среднего, вероятные интервалы являются асимптотически доверительными интервалами.
В неправильно указанном случае большинство этих свойств не гарантируется теорией. Чтобы исправить идеи, давайте предположим, что настоящая модель для состоит в том, что они являются дистрибутивами Student. Единственное свойство, которое мы можем гарантировать (Kleijn et al), состоит в том, что апостериорное распределение концентрируется на действительном среднем значении в пределе . В общем, все свойства покрытия исчезнут. Хуже того, в целом мы можем гарантировать, что в этом пределе свойства покрытия в корне неверны: апостериорное распределение приписывает неправильную вероятность различным областям пространства.X i n → ∞
источник
Ответы:
Я рассматриваю байесовский подход, когда мой набор данных - это не все, что известно о предмете, и хочу каким-то образом включить эти экзогенные знания в мой прогноз.
Например, мой клиент хочет получить прогноз дефолта по кредиту в своем портфеле. У них есть 100 займов с несколькими годами квартальных исторических данных. Было несколько случаев просрочки (просрочка платежа) и всего пара дефолтов. Если я попытаюсь оценить модель выживания на этом наборе данных, это будет очень мало данных для оценки и слишком много неопределенности для прогноза.
С другой стороны, управляющие портфелем - это опытные люди, некоторые из которых могли потратить десятилетия на управление отношениями с заемщиками. У них есть идеи относительно того, какими должны быть ставки по умолчанию. Таким образом, они способны придумать разумные приоры. Обратите внимание, не те приоры, которые имеют хорошие математические свойства и выглядят интеллектуально привлекательными для меня . Я буду общаться с ними и извлекать их опыт и знания в виде этих приоров.
Теперь байесовская структура предоставит мне механику для объединения экзогенных знаний в форме априорных данных с данными и получения апостериорного значения, которое, на мой взгляд, превосходит как чисто качественное суждение, так и прогноз, основанный на чистых данных. Это не философия, и я не байесовский. Я просто использую байесовские инструменты, чтобы последовательно включать экспертные знания в оценку, основанную на данных.
источник
Очень интересный вопрос ... который может не иметь ответа (но это не делает его менее интересным!)
Несколько мыслей (и много ссылок на мои записи в блоге!) О том меме, что все модели ошибочны :
источник
Изменения: Добавлена ссылка на этот документ в теле, как это было запрошено ОП.
Здесь я даю ответ как наивный эмпирический байесовский.
Во-первых, апостериорное распределение позволяет вам делать вычисления, которые вы просто не можете сделать с простым MLE. Самым простым случаем является то, что сегодняшний апостериор - это завтрашний априор . Байесовский умозаключение, естественно, допускает последовательные обновления или, в общем, интерактивную или запоздалую комбинацию нескольких источников информации (включение априора - лишь один из примеров такой комбинации в учебнике). Байесовская теория принятия решений с нетривиальной функцией потерь является еще одним примером. Я бы не знал, что делать иначе.
Во-вторых, с помощью этого ответа я попытаюсь доказать, что мантра о том, что количественное определение неопределенности, как правило, лучше, чем отсутствие неопределенности, является фактически эмпирическим вопросом, поскольку теоремы (как вы упомянули и насколько я знаю) не дают никаких гарантий.
Оптимизация как игрушечная модель научной деятельности
Домен , что я чувствую себя в полной мере отражает сложность проблемы является очень практичным, без излишеств один, то оптимизация черного ящика функции . Мы предполагаем, что мы можем последовательно запросить точку и получить возможно шумное наблюдение , с помощью . Наша цель - максимально приблизиться к с минимальным количеством оценок функций.f:X⊂RD→R x∈X y=f(x)+ε ε∼N(0,σ2) x∗=argminxf(x)
Как вы можете ожидать, особенно эффективный способ - это построить прогностическую модель того, что произойдет, если я сделаю запрос к любому , и использовать эту информацию, чтобы решить, что делать дальше (либо локально или глобально). См. Rios and Sahinidis (2013) для обзора методов глобальной оптимизации без производных. Когда модель достаточно сложна, это называется метамоделью или суррогатной функцией или подходом поверхности отклика . Важно отметить, что модель может быть точечной оценкой (например, соответствием радиальной базисной сетевой функции нашим наблюдениям), или мы можем быть байесовскими и каким-то образом получить полное апостериорное распределение поx′∈X f f (например, через гауссовский процесс).
Байесовская оптимизация использует апостериорный над (в частности, условное заднее среднее значение и дисперсию в любой точке), чтобы направлять поиск (глобального) оптимума через некоторую принципиальную эвристику. Классический выбор - максимизировать ожидаемое улучшение по сравнению с текущей наилучшей точкой, но есть даже более причудливые методы, такие как минимизация ожидаемой энтропии в месте расположения минимума (см. Также здесь ).f
Эмпирический результат здесь заключается в том, что доступ к заднему плану, даже если он частично указан неправильно, обычно дает лучшие результаты, чем другие методы. (Существуют предостережения и ситуации, в которых байесовская оптимизация не лучше, чем случайный поиск, например, в больших измерениях.) В этой статье мы проводим эмпирическую оценку нового метода BO по сравнению с другими алгоритмами оптимизации, проверяя, удобно ли использовать BO на практике, с многообещающими результатами.
Поскольку вы спросили - это требует гораздо больших вычислительных затрат, чем другие не байесовские методы, и вы задались вопросом, почему мы должны быть байесовскими. Здесь предполагается, что затраты, связанные с оценкой истинного (например, в реальном сценарии, сложном инженерном или машинном обучении), намного больше, чем вычислительные затраты для байесовского анализа, поэтому байесовский эффект окупается .f
Чему мы можем научиться на этом примере?
Во-первых, почему Байесовская оптимизация вообще работает? Я предполагаю, что модель неправильная, но не та , и, как обычно, неправильность зависит от того, для чего ваша модель. Например, точная форма не имеет отношения к оптимизации, поскольку мы могли бы оптимизировать любое ее монотонное преобразование. Я предполагаю, что природа полна таких инвариантов. Таким образом, поиск, который мы делаем, может быть не оптимальным (т. Е. Мы отбрасываем хорошую информацию), но все же лучше, чем без информации о неопределенности.f
Во-вторых, наш пример подчеркивает, что вполне возможно, что полезность того, чтобы быть байесовским или нет, зависит от контекста , например, относительной стоимости и количества доступных (вычислительных) ресурсов. (Конечно, если вы хардкорный байесовский учитель, вы полагаете, что каждое вычисление является байесовским умозаключением по некоторому предварительному и / или приблизительному приближению.)
Наконец, главный вопрос - почему модели, которые мы используем, не так уж и плохи , в том смысле, что постеры все еще полезны, а не статистический мусор? Если мы возьмем теорему «Нет свободного обеда», то, очевидно, мы не сможем сказать много, но, к счастью, мы не живем в мире совершенно случайных (или случайно выбранных ) функций.
В общем, поскольку вы поставили «философский» тег ... Я думаю, мы вступаем в сферу проблемы индукции или необоснованной эффективности математики в статистических науках (в частности, нашей математической интуиции и способности определять модели). это работает на практике) - в том смысле, что с чисто априорной точки зрения нет никаких причин, по которым наши догадки должны быть хорошими или иметь какую-либо гарантию (и наверняка вы можете построить математические контрпримеры, в которых все идет не так, как надо), но они поворачиваются чтобы хорошо работать на практике.
источник
Я вижу это только сегодня, но, тем не менее, думаю, что мне следует скинуться, учитывая, что я в некотором роде эксперт и что как минимум в двух ответах (№ 3 и 20 (спасибо за ссылку на мою работу Сиань!)) Упоминается моя работа над SafeBayes - в частности, Г. и ван Оммен, «Несоответствие байесовского вывода для ошибочно определенных линейных моделей и предложение по его исправлению» (2014). И я также хотел бы добавить кое-что к комментарию 2:
2 говорит: (преимущество Байеса при неправильной спецификации заключается в ...) «Ну, байесовские подходы упорядочены. Это что-то, что помогает против переоснащения - независимо от того, неверна ли ваша модель. Конечно, это просто приводит к связанному вопросу о аргументы в пользу байесовского вывода против регуляризованных классических подходов (лассо и т. д.)
Это правда, но важно добавить, что байесовские подходы не могут достаточно упорядочить если модель не права. Это основной смысл работы с Ван Омменом - мы видим там, что стандартные байесовские модели довольно ужасно пересекаются в некотором контексте регрессии с ошибочными, но очень полезными моделями. Не так плохо, как MLE, но все же слишком много, чтобы быть полезным. В теоретическом машинном обучении (частом и теоретико-игровом) есть целый ряд работ, где они используют методы, аналогичные методам Байеса, но с гораздо меньшей «скоростью обучения», что делает предшествующее больше и данные менее важными, таким образом, упорядочивая больше. Эти методы разработаны для того, чтобы хорошо работать в наихудших ситуациях (неправильная спецификация и, что еще хуже, противоборствующие данные) - подход SafeBayes предназначен для «изучения оптимальной скорости обучения» из самих данных - и этой оптимальной скорости обучения, то есть оптимального количества регуляризации,
Относительно этого, существует народная теорема (упомянутая несколькими выше), в которой говорится, что байесовский анализ будет иметь заднюю концентрацию на распределении, наиболее близком в расхождении КЛ с «истиной». Но это имеет место только при очень строгих условиях - НАМНОГО более строгих, чем условия, необходимые для сходимости в хорошо определенном случае. Если вы имеете дело со стандартными параметрическими низкоразмерными моделями и данные находятся в соответствии с некоторым распределением (не в модели), то апостериорные значения действительно сконцентрированы вокруг точки в модели, которая наиболее близка к истине в дивергенции KL. Теперь, если вы имеете дело с большими непараметрическими моделями, и модель верна, то (по существу) ваш апостериор будет по-прежнему концентрироваться вокруг истинного распределения, учитывая достаточно данных, до тех пор, пока ваш предшественник поместит достаточную массу в маленькие шарики KL вокруг истинного распределения. Этослабое условие, необходимое для сходимости в непараметрическом случае, если модель верна.
Но если ваша модель непараметрическая, но неверная, апостериор может просто не концентрироваться вокруг ближайшей точки KL, даже если ваш предшествующий уровень помещает туда массу, близкую к 1 (!) - ваш апостериор может оставаться запутанным навсегда, концентрируясь на постоянно различных распределениях с течением времени, но никогда не вокруг лучшего. В моих работах у меня есть несколько примеров этого. Статьи, которые показывают сходимость при неправильной спецификации (например, Клейн и Ван дер Ваарт), требуют много дополнительных условий, например, модель должна быть выпуклой или предшествующая должна подчиняться определенным (сложным) свойствам. Это то, что я имею в виду под «строгими» условиями.
На практике мы часто имеем дело с параметрическими, но очень многомерными моделями (например, регрессия байесовского гребня и т. Д.). Тогда, если модель неверна, в конечном итоге ваш апостериор сконцентрируется на лучшем KL-распределении в модели, но мини-версия непараметрического несоответствия все еще остается в силе: может потребоваться на несколько порядков больше данных, прежде чем произойдет конвергенция - снова моя статья с Ван Оммен приводит примеры.
Подход SafeBayes модифицирует стандартные байесы таким образом, чтобы гарантировать сходимость в непараметрических моделях при (по существу) тех же условиях, что и в хорошо определенном случае, то есть достаточной априорной массе вблизи KL-оптимального распределения в модели (G. and Mehta, 2014 ).
Тогда возникает вопрос о том, есть ли у Байеса даже обоснование под неправильной спецификацией. ИМХО (и как уже упоминалось несколькими людьми выше), стандартные обоснования Байеса (допустимость, Сэвидж, Де Финетти, Кокс и т. Д.) Здесь не действуют (потому что, если вы понимаете, что ваша модель неверно определена, ваши вероятности не отражают ваши истинные убеждения !). ОДНАКО многие байесовские методы также можно интерпретировать как «методы минимальной длины описания (MDL)» - MDL является теоретико-информационным методом, который приравнивает «изучение данных» к «попытке сжать данные настолько, насколько это возможно». Эта интерпретация сжатия данных (некоторых) байесовских методов остается действительной при неправильной спецификации. Так что еще естьосновная интерпретация, которая сохраняется при неправильной спецификации - тем не менее, есть проблемы, как показывает моя статья с ван Омменом (и проблема доверительного интервала / вероятного множества, упомянутая в оригинальном посте).
И затем последнее замечание по поводу первоначального поста: вы упомянули обоснование «приемлемости» Байеса (возвращаясь к полному уроку Уолда 1940–50-х годов). Является ли это действительно оправданием Байеса, на самом деле очень сильно зависит от точного определения «байесовского вывода» (которое отличается от исследователя к исследователю ...). Причина в том, что эти результаты допустимости допускают возможность того, что кто-то использует априор, который зависит от таких аспектов проблемы, как размер выборки, интересующая функция потерь и т. Д. Большинство «настоящих» байесов не хотели бы менять свой априор, если количество данные они должны обрабатывать изменения, или если интересующая функция потерь внезапно изменяется. Например, со строго выпуклыми функциями потерь, минимаксные оценки также допустимы - хотя обычно их не считают байесовскими! Причина в том, что для каждого фиксированного размера выборки они эквивалентны байесовскому с определенным априором, но априор отличается для каждого размера выборки.
Надеюсь, это полезно!
источник
Существует обычный компромисс отклонения. Байесовский вывод в предположении М-замкнутого случая [1,2] имеет меньшую дисперсию [3], но в случае неправильной спецификации модели смещение растет быстрее [4]. Также возможно сделать байесовский вывод, предполагая M-открытый случай [1,2], который имеет более высокую дисперсию [3], но в случае неправильной спецификации модели смещение меньше [4]. Дискуссии об этом компромиссном отклонении между байесовскими М-закрытыми и М-открытыми случаями также встречаются в некоторых ссылках, включенных в ссылки ниже, но явно существует необходимость в большем.
[1] Бернардо и Смит (1994). Байесовская теория. Джон Вили \ & Сыновья.
[2] Вехтари и Оянен (2012). Обзор байесовских прогностических методов для оценки, выбора и сравнения моделей. Статистические обзоры, 6: 142-228. http://dx.doi.org/10.1214/12-SS102
[3] Юхо Пийронен и Аки Вехтари (2017). Сравнение байесовских прогностических методов для выбора модели. Статистика и вычисления, 27 (3): 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .
[4] Яо, Вехтари, Симпсон и Эндрю Гельман (2017). Использование суммирования для усреднения байесовских прогностических распределений. Препринт arXiv arXiv: 1704.02030 arxiv.org/abs/1704.02030
источник
Вот несколько других способов обоснования байесовского вывода в неправильно определенных моделях.
Вы можете построить доверительный интервал по последнему среднему значению, используя формулу сэндвича (так же, как вы делали бы с MLE). Таким образом, даже если достоверные наборы не имеют покрытия, вы все равно можете получить действительные доверительные интервалы для точечных оценок, если это то, что вас интересует.
Вы можете изменить масштаб апостериорного распределения, чтобы обеспечить охват достоверных множеств, что является подходом, принятым в:
Мюллер, Ульрих К. «Риск байесовского вывода в неправильно определенных моделях и ковариационная матрица сэндвича». Econometrica 81,5 (2013): 1805-1849.
источник
Байесовская интерпретация этого предположения является то , что существует дополнительный случайная величина и значение в диапазоне такое , что . Ваши предыдущие знания говорят, что и . Тогда что не является правильным распределением вероятности.ϕ ϕ0 ϕ0 ∫p(X|θ,ϕ=ϕ0)dθ=0 p(ϕ=ϕ0)∝1 p(ϕ≠ϕ0)=0 p(θ|X,ϕ=ϕ0)=0
Этот случай соответствует аналогичному правилу вывода в логике, где , то есть вы ничего не можете вывести из противоречия. Результат - это способ, которым байесовская теория вероятностей говорит вам, что ваши предыдущие знания не согласуются с вашими данными. Если кто-то не смог получить этот результат при выводе апостериорного значения, это означает, что формулировка не смогла закодировать все соответствующие предшествующие знания. Что касается оценки этой ситуации, я передаю Джейнсу (2003, стр. 41):A,¬A⊢∅ p(θ|X,ϕ=ϕ0)=0
Другими словами, если ваша формулировка проблемы неточна - если ваша модель неверна, байесовская статистика может помочь вам понять, что это так, и может помочь вам определить, какой аспект модели является источником проблемы.
На практике может быть не совсем понятно, какие знания актуальны и должны ли они быть включены в деривацию. Различные методы проверки моделей (главы 6 и 7 в Gelman et al., 2013, предоставляют обзор) затем используются для выявления и выявления неточной формулировки проблемы.
Gelman, A., Carlin, JB, Stern, HS, Dunson, DB, Vehtari, A. & Rubin, DB (2013). Байесовский анализ данных, третье издание. Чепмен и Холл / CRC.
Jaynes, ET (2003). Теория вероятностей: логика науки. Издательство Кембриджского университета.
источник
MLE все еще является оценщиком для параметра в модели, которую вы указали и считаете верной. Коэффициенты регрессии в OLS для часто используемых пользователей можно оценить с помощью MLE, и все свойства, которые вы хотите прикрепить к нему (беспристрастный, конкретная асимптотическая дисперсия), все еще предполагают, что ваша очень специфическая линейная модель верна.
Я собираюсь сделать еще один шаг вперед и сказать, что каждый раз, когда вы хотите приписать значение и свойства оценщику, вы должны принять модель. Даже если вы берете простое среднее значение, вы предполагаете, что данные могут быть обменены и часто IID.
Теперь байесовские оценщики обладают многими желательными свойствами, которых MLE может не иметь. Например, частичное объединение, регуляризация и интерпретируемость апостериора, которые делают его желательным во многих ситуациях.
источник
Я рекомендую Gelman & Shalizi's Philosophy и практику байесовской статистики . У них есть последовательные, подробные и практические ответы на эти вопросы.
источник
Я думаю, что вы описываете влияние неопределенности модели - вы беспокоитесь, что ваш вывод о неизвестном параметре в свете данных зависит от модели , а также от данных. Что если неправдоподобная модель? Если существуют альтернативные модели с тем же неизвестным параметром , то вы можете изолировать неопределенность модели с помощью усреднения байесовской модели, хотя это функционал рассматриваемых моделей и их априоров.x d m
Если, с другой стороны, определение параметра неразрывно связано с моделью , так что альтернатив нет, неудивительно, что выводы о обусловлены .x m x m
источник
Как вы определяете, что такое «неправильно определенная» модель? Означает ли это модель ...
Если вы думаете о способах неправильного определения данной модели, вы, по сути, будете извлекать информацию о том, как сделать лучшую модель. Включите эту дополнительную информацию в вашу модель!
Если вы думаете о том, что такое «модель» в байесовской структуре, вы всегда можете создать модель, которая не может быть неверно определена. Один из способов сделать это - добавить дополнительные параметры в вашу текущую модель. Добавляя больше параметров, вы делаете вашу модель более гибкой и адаптируемой. Методы машинного обучения в полной мере используют эту идею. Это лежит в основе таких вещей, как «сетевые сети» и «деревья регрессии». Вы должны подумать о приорах (похоже на регуляризацию для ML).
Например, вы дали «линейную модель» в качестве примера, поэтому у вас есть ... где . Теперь предположим, что мы добавляем новый параметр для каждого наблюдения .... Где как и раньше. Как это меняет вещи? Вы могли бы сказать, что «модель 1 задана неверно, если модель 2 верна». Но модель 2 сложнее оценить, поскольку она имеет гораздо больше параметров. Кроме того, если информация о является тем, что нас волнует, имеет ли значение, если модель 1 "неправильная"?
е я ~ N ( 0 , 1 ) модель 2: х я = θ + σ е я
Если вы предполагаете, что (как «модель 2a»), то мы в основном имеем «ошибки Коши» вместо «нормальных ошибок», и модель ожидает выбросы в данных. Следовательно, добавив параметры в вашу модель и выбрав для них приоритет, я создал «более надежную модель». Однако модель все еще ожидает симметрию в терминах ошибки. Выбирая другой априор, это можно учесть также ...wi∼N(0,1)
источник