Частота и приоры

17

Робби Маккиллиам говорит в комментарии к этому сообщению:

Следует отметить, что, с точки зрения частых, нет никаких причин, по которым вы не можете включить в модель предыдущие знания. В этом смысле представление «частых» проще: у вас есть только модель и некоторые данные. Нет необходимости отделять предшествующую информацию от модели

Кроме того, здесь @jbowman говорит, что частые пользователи используют регуляризацию с помощью функции цена / штраф, в то время как байесовцы могут сделать это заранее:

Частые специалисты поняли, что регуляризация была хорошей, и используют ее довольно часто в наши дни - и байесовские априоры можно легко интерпретировать как регуляризацию.

Итак, мой вопрос заключается в том, могут ли пользователи часто включать в свои модели то, что байесовцы определяют как приоры? Если взять в качестве примера регуляризацию, действительно ли функция цены / штрафа интегрирована в модель или это чисто искусственное средство корректировки решения (а также его уникальности)?

Патрик
источник
Мог ли модератор уведомить jbowman и Робби, чтобы они могли уточнить? Или это не подходит?
Патрик
1
Патрик, вы можете уведомить любого участника этого сайта, используя конструкцию "@". Я проиллюстрировал это крошечным редактированием.
whuber
Работает в обоих местах :-).
whuber
Ну и дела, @whuber, я не получил уведомление ... возможно, изменения не делают это? Теперь мне любопытно.
jbowman
1
Хорошо, оказывается, я ошибся : механизм "@" работает в комментариях, а не в вопросах. (Но jbowman нашел этот вопрос в любом случае.)
whuber

Ответы:

8

Что касается комментария Робби МакКиллиама: я думаю, что трудность, с которой часто сталкиваются участники, связана с определением «предшествующего знания», а не со способностью включать предварительные знания в модель. Например, рассмотрите оценку вероятности того, что данная монета выпадет в голову. Давайте предположим, что мои предыдущие знания были, по сути, экспериментом, в котором эта монета была подброшена 10 раз и имела 5 голов, или, возможно, того вида: «Фабрика сделала 1 миллион монет, а расстояние , как определяется огромными экспериментами, является β ( a , b )пβ(a,б)«Каждый использует правило Байеса, когда у вас действительно есть предварительная информация такого типа (правило Байеса просто определяет условную вероятность, это не только байесовская вещь), поэтому в реальной жизни частый и байесовский используют один и тот же подход, и включить информацию в модель с помощью правила Байеса. (Предостережение: если размер вашей выборки не достаточно велик, чтобы вы были уверены, что предшествующая информация не окажет влияния на результаты.) Однако интерпретация результатов Конечно, разные.

Трудность возникает, особенно с философской точки зрения, поскольку знания становятся менее объективными / экспериментальными и более субъективными. Когда это произойдет, частый участник, скорее всего, станет менее склонен вообще включать эту информацию в модель, тогда как байесовский по-прежнему имеет некоторые более или менее формальные механизмы для этого, несмотря на трудности с выявлением субъективного априорного априора.

L(θ;Икс)п(θ)журналп(θ)

θ~знак равноМаксимумθ{журналL(θ;Икс)+журналп(θ)}

п(θ)θθ~

Опять же, трудности возникают с философской точки зрения. Зачем выбирать одну функцию регуляризации над другой? Байесовский может сделать это - перейдя к предыдущему представлению - путем оценки предшествующей информации. Частому участнику будет труднее (не сможет?) Оправдать выбор на этих основаниях, но вместо этого он, скорее всего, будет делать это в значительной степени на основе свойств функции регуляризации применительно к его / ее типу проблемы, как выяснилось из совместной работы. работа / опыт многих статистиков. OTOH, (прагматично) байесовцы делают то же самое с приорами - если бы у меня было 100 долларов за каждую статью о приорах для дисперсий, которые я читал ...

Другие «мысли»: я пропустил весь вопрос выбора функции правдоподобия, предполагая, что на нее не влияют частые / байесовские точки зрения. Я уверен, что в большинстве случаев это так, но я могу представить, что в необычных ситуациях это будет, например, по вычислительным соображениям.

θθ

jbowman
источник
Итак, если я вас правильно понимаю: технически, формально, частый участник может регулировать столько, сколько ему хочется, но у него (-ов) будут проблемы с его обоснованием. Байесовский может все еще иметь проблемы с количественной оценкой его регуляризации, но качественно (с) он имеет последовательный способ включить его.
Патрик
Байесовский также не ограничен использованием точечной оценки MAP, имеющей доступ к полному апостериорному распределению, - но при этом частому участнику не нужно максимизировать упорядоченную логарифмическую вероятность, либо возможность использовать различные надежные оценки, либо метод моменты и т. д., если есть. Frequentist не должен максимизировать. Но это все еще метод, доступный для Frequentists, если они выбирают так, верно? Я догадываюсь, что по историческим причинам (без компьютеров!) У частых есть много умных оценщиков, которые они используют вместо того, чтобы вычислять функцию полного правдоподобия.
Патрик
5

Чтобы ответить на этот вопрос, полезно определить частоту как «интересующие свойства выборочного распределения функций данных». Такими функциями могут быть точечные оценки, p-значения статистики теста, доверительные интервалы, результаты теста Неймана-Пирсона или в основном все, что вы можете себе представить. Частотность не определяет, как строить оценки, p-значения и т. Д. В полной общности, хотя существуют некоторые рекомендации, например, использовать достаточную статистику, если она доступна, использовать основную статистику, если она доступна, и т. Д. Из этого В перспективе, предварительная информация не включена в модель как таковую , а скорее в отображение функции в выходные данные функции.

Упомянутый выше «интерес» заключается в свойствах, которые считаются важными для вывода, таких как отсутствие смещения, асимптотическая согласованность, дисперсия, среднеквадратическая ошибка, средняя абсолютная ошибка, доверительное покрытие (особенно номинальное и фактическое), контроль ошибок типа I и т. Д. еще с очевидной или интуитивной важностью для изучения данных. Эти свойства могут быть оценены (путем моделирования, если не что иное), включает ли функция предварительную информацию.

Особый интерес представляют свойства, которые, как известно, могут храниться независимо от фактических значений параметров, лежащих в основе процесса генерации данных. Например, в нормальной модели iid с известным отклонением среднее значение данных является несмещенным и асимптотически непротиворечивым для среднего значения распределения, независимо от того, что это такое. Напротив, оценка усадки (средневзвешенное значение среднего значения данных и предварительное предположение для среднего значения распределения) имеет меньшую среднеквадратичную ошибку, если среднее значение распределения близко к предыдущему предположению, но в противном случае более высокая среднеквадратичная ошибка, хотя и " наследует "асимптотическую согласованность от среднего значения данных.

Поэтому я бы сказал, что в метод логического вывода можно поместить предварительную информацию, но это не входит в модель. Очень хорошая иллюстрация понятий, которые я обрисовал в контексте доверительных интервалов для физических свойств, которые обязательно неотрицательны, Фельдман и Казинс, «Единый подход к классическому статистическому анализу малых сигналов» .

Cyan
источник