Этот вопрос был вдохновлен двумя недавними взаимодействиями, которые у меня были: одно здесь, в резюме , другое на economics.se.
Там, я отправил ответ на известный «Конверт парадокса» (заметьте, не как на «правильный ответ» , но в качестве ответа , вытекающих из конкретных предположений о структуре ситуации). Через некоторое время пользователь опубликовал критический комментарий, и я вступил в разговор, пытаясь понять его точку зрения. Было очевидно, что он думал по-байесовски и продолжал говорить о приорах - и тогда меня осенило, и я сказал себе: «Подожди-ка, кто сказал что-нибудь о каком-либо предшествующем? Как я сформулировал проблема, здесь нет приоры, они просто не входят в изображение, и не нужно ".
Недавно я увидел этот ответ здесь, в резюме, о значении статистической независимости. Я прокомментировал автору, что его предложение
«... если события статистически независимы, то (по определению) мы не можем узнать об одном из наблюдений за другим».
был явно неправ. В обмене комментариями он продолжал возвращаться к вопросу (его слова)
«Разве« обучение »не означает изменение наших убеждений о чем-то, основанном на наблюдении за другим? Если так, не исключает ли это независимость (по определению)?
Еще раз, было очевидно, что он думал о Байесовском пути, и что он считал само собой разумеющимся, что мы начинаем с некоторых убеждений (то есть, ранее) , и тогда возникает вопрос, как мы можем изменить / обновить их. Но как создается первое-первое убеждение?
Поскольку наука должна соответствовать реальности, я отмечаю, что существуют ситуации, в которых участвующие люди не имеют никаких приоритетов (я, во-первых, вхожу в ситуации без какого-либо предварительного внимания - и, пожалуйста, не спорьте, что у меня действительно есть приоритеты, но я просто не осознайте этого, давайте избавимся от фиктивного психоанализа здесь).
Так как мне довелось услышать термин «неинформативные априоры», я разбил свой вопрос на две части, и я почти уверен, что пользователи, которые разбираются в теории Байеса, точно знают, что я собираюсь спросить:
В1: Является ли отсутствие априорного эквивалента (в строгом теоретическом смысле) неинформативным априорным?
Если ответ на вопрос 1 «Да» (с некоторыми уточнениями, пожалуйста), то это означает, что байесовский подход применим повсеместно и с самого начала , поскольку в любом случае участвующий человек заявляет: «У меня нет априоров», которые мы можем добавить в его место априор, который неинформативен для рассматриваемого случая.
Но если ответом на вопрос Q1 является «Нет», тогда приходит вопрос Q2 :
Q2: Если ответом на вопрос Q1 является «Нет», означает ли это, что в случаях, когда нет априоров, байесовский подход не применим с самого начала, и мы должны сначала сформировать априор каким-то не байесовским способом, чтобы впоследствии мы могли применить байесовский подход?
источник
Ответы:
В1: Является ли отсутствие априорного эквивалента (в строгом теоретическом смысле) неинформативным априорным?
Нет.
Во-первых, не существует математического определения «неинформативного априора». Это слово используется только неофициально для описания некоторых приоров.
Например, априор Джеффри часто называют «неинформативным». Этот априор обобщает единый априор для трансляционно-инвариантных задач. Приоритет Джеффри каким-то образом адаптируется к (теоретико-информационной) римановой геометрии модели и, таким образом, не зависит от параметризации, зависит только от геометрии многообразия (в пространстве распределений), которым является модель. Это может быть воспринято как каноническое, но это только выбор. Это просто единообразный априор согласно римановой структуре. Не абсурдно определять «неинформативный = равномерный» как упрощение вопроса. Это относится ко многим случаям и помогает задать ясный и простой вопрос.
Выполнение байесовского вывода без предварительного аналогично «как я могу угадать без какого-либо предположения о распределении X, только зная, что X имеет значения в [ 0 ; 1 ] ?» Этот вопрос, очевидно, не имеет смысла. Если вы ответите 0.5, вы, вероятно, имеете в виду распределение.E(X) X X [0;1]
Байесовский и частичный подходы просто отвечают на разные вопросы. Например, об оценках, которые, возможно, самые простые:
Частый (например): «Как я могу оценить , чтобы в моем ответе была наименьшая ошибка (только усредненная по x ) в худшем случае (по θ )?». Это приводит к минимаксным оценкам.θ x θ
Байесовский: «Как я могу оценить , чтобы мой ответ имел наименьшую ошибку в среднем (больше θ )?». Это приводит к оценкам Байеса. Но вопрос неполный и должен указывать «средний в каком смысле?». Таким образом, вопрос является полным, только если в нем содержится предварительная информация.θ θ
Каким-то образом частый человек стремится к контролю в худшем случае и не нуждается в предварительном. Байесовский стремится к среднему контролю и требует, прежде чем сказать «средний в каком смысле?».
Q2: Если ответом на вопрос Q1 является «Нет», означает ли это, что в случаях, когда нет априоров, байесовский подход не применим с самого начала, и мы должны сначала сформировать априор каким-то не байесовским способом, чтобы впоследствии мы могли применить байесовский подход?
Да.
На мой взгляд, настоящие проблемы с предварительной спецификацией возникают в более сложных задачах. Здесь важно понимать, что говорит определенный априор.
источник
Прежде всего, часто используется байесовский подход, потому что вы хотите включить предварительные знания в свою модель, чтобы обогатить их. Если у вас нет каких-либо предварительных знаний, то вы придерживаетесь так называемых «неинформативных» или еженедельных информативных априоров. Обратите внимание, что единообразный априор не является «неинформативным» по определению, поскольку предположение об однородности является допущением. Нет такой вещи, как по-настоящему неинформативный априор, Есть случаи, когда «это может быть что угодно» является разумным «неинформативным» предварительным предположением, но также есть случаи, когда утверждение, что «все значения одинаково вероятны», является очень сильным и необоснованным предположением. Например, если вы предполагаете, что мой рост может быть чем-то между 0 сантиметрами и 3 метрами, причем все значения одинаково вероятны априори, это не будет разумным допущением, и это придаст слишком большой вес экстремальным значениям, так что это может исказить ваш зад.
С другой стороны, Байесовский может утверждать, что в действительности не существует ситуаций, в которых у вас нет никаких предварительных знаний или убеждений. Вы всегда можете что- то предполагать, и как человек вы делаете это все время (психологи и поведенческие экономисты сделали множество исследований на эту тему). Вся байесовская суета с приорами заключается в количественной оценке этих предвзятых мнений и их явном изложении в вашей модели, поскольку байесовский вывод заключается в обновлении ваших убеждений .
Легко придумать аргументы «без предварительных предположений» или единообразных априоров для абстрактных задач, но для реальных проблем у вас есть предварительные знания. Если бы вам нужно было сделать ставку на сумму денег в конверте, вы бы знали, что сумма должна быть неотрицательной и конечной. Вы также можете сделать обоснованное предположение о верхней границе возможной суммы денег, учитывая ваши знания о правилах конкурса, средства, доступные для вашего противника, знания о физическом размере конверта и сумме денег, которая может физически соответствовать в нем и т. д. Вы также можете сделать некоторые предположения о сумме денег, которую ваш противник может захотеть положить в конверт и, возможно, потерять. Есть много вещей, которые вы бы знали в качестве основы для своего предшественника.
источник
Вопрос 1 Я думаю, что ответ, вероятно, нет. Моя причина в том, что у нас на самом деле нет определения «неинформативный», за исключением какого-то измерения того, насколько далек окончательный ответ от какой-то произвольно информативной модели / вероятности. Многие неинформативные приоритеты проверяются на «интуитивных» примерах, в которых мы уже имеем в виду «модель / вероятность» и «ответ». Затем мы просим неинформативного, прежде чем дать нам ответ, который мы хотим.
Моя проблема с этим заключается в том, что я борюсь с верой в то, что кто-то может иметь действительно хорошую, хорошо информированную модель или структуру модели для своего населения и одновременно «не иметь информации» о вероятных и маловероятных значениях параметров для этой модели. Например, используя логистическую регрессию, см. «СЛАБОЙ ИНФОРМАЦИОННЫЙ ПО УМОЛЧАНИЮ ПО УМОЛЧАНИЮ. ДЛЯ ЛОГИСТИЧЕСКИХ И ДРУГИХ МОДЕЛЕЙ РЕГРЕССИИ»
Я думаю, что дискретный априорный априор - это единственный, который мы можем разумно сказать, это «первый-первый» априор. Но вы сталкиваетесь с проблемами его использования, думая, что у вас «нет информации», но затем внезапно возникают реакции на «неинтуитивные» ответы (подсказка: если вам не нравится байесовский ответ - вы могли бы оставить информацию вне предыдущего или вероятность!). Другая проблема, с которой вы сталкиваетесь, заключается в правильном подходе к вашей проблеме. И даже думая об этом, вам нужно знать количество дискретных значений, чтобы применить дискретную форму заранее.
Другим свойством, которое следует учитывать для вашего предшественника, является «поведение хвоста» относительно вероятности, которую вы используете.
на вопрос 2
Концептуально, я не вижу ничего плохого в определении распределения без использования априора или вероятности. Вы можете начать проблему, сказав "мой PDF-файл ... и я хочу рассчитать ... по этому PDF-файла". Затем вы создаете ограничение для предварительного, предварительного прогнозирования и вероятности. Байесовский метод предназначен для случаев, когда у вас есть априор и вероятность, и вы хотите объединить их в апостериорное распределение.
Вероятно, это вопрос ясности ваших вероятностей. Затем аргумент переходит к: «Этот pdf / pmf представляет то, что я говорю?» - в каком пространстве вы хотите быть, я думаю. В своем примере вы говорите, что один дистрибутив отражает всю доступную информацию - «предварительного» нет, поскольку он уже (неявно) содержится в используемом вами дистрибутиве.
на так называемый явно неправильный комментарий
Честно говоря, мне было бы очень интересно посмотреть, как можно использовать любой набор наблюдений для предсказания «статистически независимого» наблюдения. Например, если я скажу вам, я сгенерирую 100 стандартных нормальных переменных. Я даю вам 99 и заставляю вас давать лучший прогноз на сотый. Я говорю, что вы не можете сделать лучший прогноз для сотого, чем 0. Но это то же самое, что вы прогнозировали бы для сотого, если бы я не дал вам никаких данных. Следовательно, вы ничего не узнаете из 99 точек данных.
Однако, если я скажу вам, что это было «нормальное распределение», вы можете использовать 99 точек данных для оценки параметров. Тогда данные больше не являются «статистически независимыми», потому что мы узнаем больше об общей структуре, когда наблюдаем больше данных. Ваш лучший прогноз теперь использует все 99 точек данных
источник
Это только краткое замечание как дополнение к другим отличным ответам. Часто, или, по крайней мере, иногда, это несколько произвольно (или условно), какая часть информации, входящей в статистический анализ, называется данными, а какая часть называется предшествующей . Или, в более общем смысле, мы можем сказать, что информация в статистическом анализе поступает из трех источников: модель , данные и априор . В некоторых случаях, таких как линейные модели или модели GLM, разделение достаточно четкое, по крайней мере, условно.
Я буду использовать пример из оценки максимального правдоподобия (MLE) в терминах непрофессионала, чтобы проиллюстрировать мою точку зрения. Скажем, пациент входит в кабинет врача с некоторыми медицинскими проблемами, которые трудно диагностировать. Этот врач не видел ничего похожего раньше. Затем, разговаривая с пациентом, появляется новая информация: этот пациент недавно посетил тропическую Африку. Затем врачу кажется, что это может быть малярия или какое-либо другое тропическое заболевание. Но обратите внимание, что эта информация явно нам данные, но, по крайней мере, во многих статистических моделях, которые можно было бы использовать, он будет вводиться в форме анализа в виде предварительного распределения, которое дает более высокую вероятность некоторых тропических болезней. Но мы могли бы, возможно, сделать некоторую (более крупную), более полную модель, в которую эта информация входит как данные. Таким образом, по крайней мере частично, различие между данными и предшествующими является традиционным.
Мы привыкли и принимаем это соглашение из-за того, что делаем акцент на некоторых классах традиционных моделей. Но в целом, за пределами мира стилизованных статистических моделей, ситуация менее ясна.
источник