Как байесовская статистика справляется с отсутствием приоров?

16

Этот вопрос был вдохновлен двумя недавними взаимодействиями, которые у меня были: одно здесь, в резюме , другое на economics.se.

Там, я отправил ответ на известный «Конверт парадокса» (заметьте, не как на «правильный ответ» , но в качестве ответа , вытекающих из конкретных предположений о структуре ситуации). Через некоторое время пользователь опубликовал критический комментарий, и я вступил в разговор, пытаясь понять его точку зрения. Было очевидно, что он думал по-байесовски и продолжал говорить о приорах - и тогда меня осенило, и я сказал себе: «Подожди-ка, кто сказал что-нибудь о каком-либо предшествующем? Как я сформулировал проблема, здесь нет приоры, они просто не входят в изображение, и не нужно ".

Недавно я увидел этот ответ здесь, в резюме, о значении статистической независимости. Я прокомментировал автору, что его предложение

«... если события статистически независимы, то (по определению) мы не можем узнать об одном из наблюдений за другим».

был явно неправ. В обмене комментариями он продолжал возвращаться к вопросу (его слова)

«Разве« обучение »не означает изменение наших убеждений о чем-то, основанном на наблюдении за другим? Если так, не исключает ли это независимость (по определению)?

Еще раз, было очевидно, что он думал о Байесовском пути, и что он считал само собой разумеющимся, что мы начинаем с некоторых убеждений (то есть, ранее) , и тогда возникает вопрос, как мы можем изменить / обновить их. Но как создается первое-первое убеждение?

Поскольку наука должна соответствовать реальности, я отмечаю, что существуют ситуации, в которых участвующие люди не имеют никаких приоритетов (я, во-первых, вхожу в ситуации без какого-либо предварительного внимания - и, пожалуйста, не спорьте, что у меня действительно есть приоритеты, но я просто не осознайте этого, давайте избавимся от фиктивного психоанализа здесь).

Так как мне довелось услышать термин «неинформативные априоры», я разбил свой вопрос на две части, и я почти уверен, что пользователи, которые разбираются в теории Байеса, точно знают, что я собираюсь спросить:

В1: Является ли отсутствие априорного эквивалента (в строгом теоретическом смысле) неинформативным априорным?

Если ответ на вопрос 1 «Да» (с некоторыми уточнениями, пожалуйста), то это означает, что байесовский подход применим повсеместно и с самого начала , поскольку в любом случае участвующий человек заявляет: «У меня нет априоров», которые мы можем добавить в его место априор, который неинформативен для рассматриваемого случая.

Но если ответом на вопрос Q1 является «Нет», тогда приходит вопрос Q2 :

Q2: Если ответом на вопрос Q1 является «Нет», означает ли это, что в случаях, когда нет априоров, байесовский подход не применим с самого начала, и мы должны сначала сформировать априор каким-то не байесовским способом, чтобы впоследствии мы могли применить байесовский подход?

Алекос Пападопулос
источник
2
Я отмечу, что, как ученый, «никаких предварительных убеждений» является довольно экстремистским заявлением ... сродни тому, чтобы видеть только статичный «снег» старого аналогового телевизора, настроенного на мертвую станцию, и слышать только белый шум. Ученые явно не верят, что ничто в мире не имеет отношения к информации и не несет никакой информации ... если бы мы действительно верили, что мы не будем учеными. Конечно, байесовская артикуляция «неинформативного» несет в себе очень общие убеждения о возможности и вероятности.
Алексис
2
@ Алексис Зависит от ситуации. Например, в «Парадоксе конверта» проблема заключается в том, что после просмотра суммы, содержащейся в одном конверте, было ли у меня какое- либо предварительное мнение о том, на что я смотрю, это «большое» количество или «небольшое» количество. И я не вижу ничего экстремального в том, чтобы заявлять здесь: «У меня нет предварительной веры в этом вопросе».
Алекос Пападопулос
1
У вас есть предварительное убеждение, что есть какие-то суммы и что они имеют некоторое распределение между конвертами? (Даже если вы агностик в отношении конкретного распределения или его параметризации?)
Алексис
1
@Alexis Конечно, но оно сформулировано как структурное знание, которое существует независимо от последующей информации. Это не вера, которая нуждается в обновлении. И поскольку эта формулировка отражает восприятие по крайней мере одного члена человеческой расы (меня), это реальная ситуация, и вопрос в том, считается ли она поддающейся байесовскому анализу или нет. Конечно, для другого человека, который заявляет: «У меня есть следующее предварительное мнение о распределении сумм между конвертами», применимость байесовского подхода очевидна.
Алекос Пападопулос
2
Похоже, вы верите, что либо НЕТ предшествующего, либо предшествующего. В байесовском моделировании, на мой взгляд, апостериорный анализ является условным или относительным к выбору априора, и я не использую этот априор как абсолютный. Мой предварительный вариант - это естественный способ введения вероятностной структуры и измерения в пространстве параметров.
Сиань

Ответы:

11

В1: Является ли отсутствие априорного эквивалента (в строгом теоретическом смысле) неинформативным априорным?

Нет.

Во-первых, не существует математического определения «неинформативного априора». Это слово используется только неофициально для описания некоторых приоров.

Например, априор Джеффри часто называют «неинформативным». Этот априор обобщает единый априор для трансляционно-инвариантных задач. Приоритет Джеффри каким-то образом адаптируется к (теоретико-информационной) римановой геометрии модели и, таким образом, не зависит от параметризации, зависит только от геометрии многообразия (в пространстве распределений), которым является модель. Это может быть воспринято как каноническое, но это только выбор. Это просто единообразный априор согласно римановой структуре. Не абсурдно определять «неинформативный = равномерный» как упрощение вопроса. Это относится ко многим случаям и помогает задать ясный и простой вопрос.

Выполнение байесовского вывода без предварительного аналогично «как я могу угадать без какого-либо предположения о распределении X, только зная, что X имеет значения в [ 0 ; 1 ] ?» Этот вопрос, очевидно, не имеет смысла. Если вы ответите 0.5, вы, вероятно, имеете в виду распределение.E(X)XX[0;1]

Байесовский и частичный подходы просто отвечают на разные вопросы. Например, об оценках, которые, возможно, самые простые:

  • Частый (например): «Как я могу оценить , чтобы в моем ответе была наименьшая ошибка (только усредненная по x ) в худшем случае (по θ )?». Это приводит к минимаксным оценкам.θxθ

  • Байесовский: «Как я могу оценить , чтобы мой ответ имел наименьшую ошибку в среднем (больше θ )?». Это приводит к оценкам Байеса. Но вопрос неполный и должен указывать «средний в каком смысле?». Таким образом, вопрос является полным, только если в нем содержится предварительная информация.θθ

Каким-то образом частый человек стремится к контролю в худшем случае и не нуждается в предварительном. Байесовский стремится к среднему контролю и требует, прежде чем сказать «средний в каком смысле?».

Q2: Если ответом на вопрос Q1 является «Нет», означает ли это, что в случаях, когда нет априоров, байесовский подход не применим с самого начала, и мы должны сначала сформировать априор каким-то не байесовским способом, чтобы впоследствии мы могли применить байесовский подход?

Да.

XN(μ,1)μ

На мой взгляд, настоящие проблемы с предварительной спецификацией возникают в более сложных задачах. Здесь важно понимать, что говорит определенный априор.

Бенуа Санчес
источник
2
(+1) Спасибо, это действительно информативно.
Алекос Пападопулос
4

Прежде всего, часто используется байесовский подход, потому что вы хотите включить предварительные знания в свою модель, чтобы обогатить их. Если у вас нет каких-либо предварительных знаний, то вы придерживаетесь так называемых «неинформативных» или еженедельных информативных априоров. Обратите внимание, что единообразный априор не является «неинформативным» по определению, поскольку предположение об однородности является допущением. Нет такой вещи, как по-настоящему неинформативный априор, Есть случаи, когда «это может быть что угодно» является разумным «неинформативным» предварительным предположением, но также есть случаи, когда утверждение, что «все значения одинаково вероятны», является очень сильным и необоснованным предположением. Например, если вы предполагаете, что мой рост может быть чем-то между 0 сантиметрами и 3 метрами, причем все значения одинаково вероятны априори, это не будет разумным допущением, и это придаст слишком большой вес экстремальным значениям, так что это может исказить ваш зад.

С другой стороны, Байесовский может утверждать, что в действительности не существует ситуаций, в которых у вас нет никаких предварительных знаний или убеждений. Вы всегда можете что- то предполагать, и как человек вы делаете это все время (психологи и поведенческие экономисты сделали множество исследований на эту тему). Вся байесовская суета с приорами заключается в количественной оценке этих предвзятых мнений и их явном изложении в вашей модели, поскольку байесовский вывод заключается в обновлении ваших убеждений .

Легко придумать аргументы «без предварительных предположений» или единообразных априоров для абстрактных задач, но для реальных проблем у вас есть предварительные знания. Если бы вам нужно было сделать ставку на сумму денег в конверте, вы бы знали, что сумма должна быть неотрицательной и конечной. Вы также можете сделать обоснованное предположение о верхней границе возможной суммы денег, учитывая ваши знания о правилах конкурса, средства, доступные для вашего противника, знания о физическом размере конверта и сумме денег, которая может физически соответствовать в нем и т. д. Вы также можете сделать некоторые предположения о сумме денег, которую ваш противник может захотеть положить в конверт и, возможно, потерять. Есть много вещей, которые вы бы знали в качестве основы для своего предшественника.

Тим
источник
2
@AlecosPapadopoulos извините, что не сказал то, что вы хотели услышать, но я считаю, что это часть ответа на ваш вопрос. Что касается Q1, очевидно, что предположить , что единообразный априор не то же самое, что не предполагать априор, поскольку вы сделали предположение. Если вы вообще не хотите использовать приоры, используйте метод максимального правдоподобия или эмпирический байесовский подход.
Тим
2
Что я «хотел услышать»? Насколько я понимаю, когда человек задает здесь вопрос, разумно ожидать, что ответ будет о вопросе. Нет ничего конкретного, что я «хотел бы услышать» (здесь тоже нет приоров), я просто искал ответы на конкретные вопросы, и мой комментарий был о том, что я не вижу, каким образом ваш ответ отвечает на мои вопросы. Но в вашем комментарии я думаю, что есть что-то действительно актуальное: «Эмпирический байесовский подход»? Можете ли вы упомянуть / указать на некоторую литературу?
Алекос Пападопулос
3
@AlecosPapadopoulos Эмпирический Байес выбирает ваши приоры на основе данных (то есть обмана). Вы можете начать с Википедии или статей Эфрона (их можно легко найти в Google scholar).
Тим
2
Предположим, вы столкнулись с проблемой в понедельник, и у вас был предварительный, скажем, стандартный нормальный. Итак, вы подключаете его к своим данным, проводите анализ, изучаете что-то. Во вторник вы не можете использовать это ранее, потому что вы уже что-то узнали. Таким образом, вы должны подключить другой предварительный, действительно. Таким образом, в строгом байесовском приоры одноразового использования. Вы буквально можете запустить их через программное обеспечение только ОДИН РАЗ. В тот момент, когда вы получаете результаты, срок действия предыдущего истекает, если вы ничего не узнали. Так что в практическом смысле Байесовский подход непригоден в чистом виде, все Байесовцы постоянно обманывают себя
Аксакал
3
@Aksakal Но почему недопустимо использовать во вторник, как мой новый предшественник, задний, полученный мной в понедельник? То, как я это говорю, это абсолютно действительная последовательная процедура. Поэтому я не понимаю, почему вы пишете «Байесовцы постоянно обманывают себя».
Алекос Пападопулос
3

Вопрос 1 Я думаю, что ответ, вероятно, нет. Моя причина в том, что у нас на самом деле нет определения «неинформативный», за исключением какого-то измерения того, насколько далек окончательный ответ от какой-то произвольно информативной модели / вероятности. Многие неинформативные приоритеты проверяются на «интуитивных» примерах, в которых мы уже имеем в виду «модель / вероятность» и «ответ». Затем мы просим неинформативного, прежде чем дать нам ответ, который мы хотим.

Моя проблема с этим заключается в том, что я борюсь с верой в то, что кто-то может иметь действительно хорошую, хорошо информированную модель или структуру модели для своего населения и одновременно «не иметь информации» о вероятных и маловероятных значениях параметров для этой модели. Например, используя логистическую регрессию, см. «СЛАБОЙ ИНФОРМАЦИОННЫЙ ПО УМОЛЧАНИЮ ПО УМОЛЧАНИЮ. ДЛЯ ЛОГИСТИЧЕСКИХ И ДРУГИХ МОДЕЛЕЙ РЕГРЕССИИ»

Я думаю, что дискретный априорный априор - это единственный, который мы можем разумно сказать, это «первый-первый» априор. Но вы сталкиваетесь с проблемами его использования, думая, что у вас «нет информации», но затем внезапно возникают реакции на «неинтуитивные» ответы (подсказка: если вам не нравится байесовский ответ - вы могли бы оставить информацию вне предыдущего или вероятность!). Другая проблема, с которой вы сталкиваетесь, заключается в правильном подходе к вашей проблеме. И даже думая об этом, вам нужно знать количество дискретных значений, чтобы применить дискретную форму заранее.

Другим свойством, которое следует учитывать для вашего предшественника, является «поведение хвоста» относительно вероятности, которую вы используете.

на вопрос 2

Концептуально, я не вижу ничего плохого в определении распределения без использования априора или вероятности. Вы можете начать проблему, сказав "мой PDF-файл ... и я хочу рассчитать ... по этому PDF-файла". Затем вы создаете ограничение для предварительного, предварительного прогнозирования и вероятности. Байесовский метод предназначен для случаев, когда у вас есть априор и вероятность, и вы хотите объединить их в апостериорное распределение.

Вероятно, это вопрос ясности ваших вероятностей. Затем аргумент переходит к: «Этот pdf / pmf представляет то, что я говорю?» - в каком пространстве вы хотите быть, я думаю. В своем примере вы говорите, что один дистрибутив отражает всю доступную информацию - «предварительного» нет, поскольку он уже (неявно) содержится в используемом вами дистрибутиве.

U(0,1)Bin(n,p)Beta(0,0)21

на так называемый явно неправильный комментарий

Честно говоря, мне было бы очень интересно посмотреть, как можно использовать любой набор наблюдений для предсказания «статистически независимого» наблюдения. Например, если я скажу вам, я сгенерирую 100 стандартных нормальных переменных. Я даю вам 99 и заставляю вас давать лучший прогноз на сотый. Я говорю, что вы не можете сделать лучший прогноз для сотого, чем 0. Но это то же самое, что вы прогнозировали бы для сотого, если бы я не дал вам никаких данных. Следовательно, вы ничего не узнаете из 99 точек данных.

Однако, если я скажу вам, что это было «нормальное распределение», вы можете использовать 99 точек данных для оценки параметров. Тогда данные больше не являются «статистически независимыми», потому что мы узнаем больше об общей структуре, когда наблюдаем больше данных. Ваш лучший прогноз теперь использует все 99 точек данных

probabilityislogic
источник
1
(+1) Спасибо за ваш вдумчивый ответ. Разъяснение относительно «явно ошибочного» утверждения: оно было сделано потому, что «обучение» (и я говорю об общем значении этого слова) является гораздо более широким понятием, чем «предсказание». Если два события структурно схожи, мы можем изучить вещи, связанные с одним, изучая другое, даже если они могут быть статистически независимыми. Вы также говорите об «общей структуре» в своем ответе, и это все, что нужно сделать.
Алекос Пападопулос
@Alecos Papadopoulos - дело в том, что вы не можете учиться, не делая вещи статистически зависимыми. Если взять мой пример, что можно изучить в сценарии 1. Кроме того, общая структура должна быть неизвестна, а не просто присутствовать.
вероятностная
1
Комментируя последнее предложение вашего поста, тот факт, что мы можем что-то узнать об общей структуре, как вы указали, не делает случайные переменные, включенные в статистику, «статистически зависимыми». Они остаются «независимыми по вероятности», что является еще одним способом сказать «статистически независимым», понятие, которое имеет очень точное математическое значение. То, что они имеют общие характеристики (здесь их диапазон характеризуется одинаковым распределением вероятностей), не делает их статистически зависимыми.
Алекос Пападопулос
Ваша фраза «независимый по вероятности» мне не ясна, и я подозреваю, что именно поэтому я не согласен с тем, что вы говорите. Если это заменено на «условно независимый» или «обменный», то то, что вы говорите, имеет смысл. Я также все еще жду чего-то, что можно было бы узнать из 99 iid стандартных нормальных rvs, которые помогают с сотым (не должно быть о предсказании).
вероятностная
1
@probabilisticlogic «Независимый по вероятности» - это выражение, которое обычно можно найти в старых работах, и означает, что означает статистическая независимость, выраженная через функции распределения. 99 rv позволят мне изучить все виды свойств, характеристик и т. Д. Сотых, моментов, квантилей, как вы это называете.
Алекос Пападопулос
3

Это только краткое замечание как дополнение к другим отличным ответам. Часто, или, по крайней мере, иногда, это несколько произвольно (или условно), какая часть информации, входящей в статистический анализ, называется данными, а какая часть называется предшествующей . Или, в более общем смысле, мы можем сказать, что информация в статистическом анализе поступает из трех источников: модель , данные и априор . В некоторых случаях, таких как линейные модели или модели GLM, разделение достаточно четкое, по крайней мере, условно.

Я буду использовать пример из оценки максимального правдоподобия (MLE) в терминах непрофессионала, чтобы проиллюстрировать мою точку зрения. Скажем, пациент входит в кабинет врача с некоторыми медицинскими проблемами, которые трудно диагностировать. Этот врач не видел ничего похожего раньше. Затем, разговаривая с пациентом, появляется новая информация: этот пациент недавно посетил тропическую Африку. Затем врачу кажется, что это может быть малярия или какое-либо другое тропическое заболевание. Но обратите внимание, что эта информация явно нам данные, но, по крайней мере, во многих статистических моделях, которые можно было бы использовать, он будет вводиться в форме анализа в виде предварительного распределения, которое дает более высокую вероятность некоторых тропических болезней. Но мы могли бы, возможно, сделать некоторую (более крупную), более полную модель, в которую эта информация входит как данные. Таким образом, по крайней мере частично, различие между данными и предшествующими является традиционным.

Мы привыкли и принимаем это соглашение из-за того, что делаем акцент на некоторых классах традиционных моделей. Но в целом, за пределами мира стилизованных статистических моделей, ситуация менее ясна.

Къетил б Халворсен
источник