Часто утверждают, что байесовский каркас имеет большое преимущество в интерпретации (по сравнению с частыми), потому что он вычисляет вероятность параметра с учетом данных - вместо как в Частые рамки. Все идет нормально.p ( x | θ )
Но все уравнение основано на:
выглядит немного подозрительно по двум причинам:
Во многих статьях обычно используются неинформативные априорные значения (равномерное распределение), а затем просто , поэтому байесовцы получают тот же результат, что и частые специалисты - так как же тогда байесовская структура лучше интерпретируется, когда байесовский апостериор и вероятностные вероятности имеют одинаковое распределение? Это просто дает тот же результат.
При использовании информативных априорных значений вы получаете разные результаты, но субъективный априор влияет на байесовский эффект, поэтому весь имеет субъективный оттенок.
Другими словами, весь аргумент о том, что лучше интерпретируется, чем p ( x | θ ), основан на предположении, что p ( θ ) является своего рода «реальным», что обычно не является, это просто отправной точкой мы каким-то образом выбираем запуск MCMC, это презумпция, но это не описание реальности (я думаю, это невозможно определить).
Так как же мы можем утверждать, что байесовский язык лучше в интерпретации?
источник
uninformative or *objective* priors
? Вsubjective
приоры точно информативных приоры.Ответы:
Чтобы дать более узкий ответ, чем отличные, которые уже были опубликованы, и сосредоточиться на преимуществе в интерпретации - байесовская интерпретация, например, «95% вероятного интервала» заключается в том, что вероятность того, что истинное значение параметра находится в пределах интервал равен 95%. Одна из двух распространенных частых интерпретаций, например, «95% доверительного интервала», даже если численно эти два идентичные, состоит в том, что в долгосрочной перспективе, если мы должны были выполнить процедуру много-много раз, частота, с которой интервал будет охватывать реальное значение будет сходиться до 95%. Первое интуитивно понятно, второе - нет. Попытайтесь объяснить менеджеру какое-то время, что вы не можете сказать: «Вероятность того, что наши солнечные батареи ухудшатся менее чем на 20% за 25 лет, составляет 95%», но вместо этого нужно сказать «
Альтернативная частая интерпретация была бы такой: «До того, как данные были сгенерированы, с 5% -ной вероятностью интервал, который я рассчитал, используя процедуру, на которой я остановился, полностью опустился бы ниже истинного значения параметра. Однако теперь, когда мы собрали данные, мы не можем сделать такое заявление, потому что мы не субъективисты, и вероятность равна 0 или 1, в зависимости от того, лежит ли она полностью или нет, ниже истинного значения параметра ». Это поможет с аудиторами и при расчете гарантийного резерва. (На самом деле я нахожу это определение разумным, хотя обычно не полезным; его также непросто понять интуитивно, особенно если вы не статистик.)
Ни одна из частых интерпретаций не является интуитивной. Байесовская версия есть. Отсюда и «большое преимущество в интерпретации», присущее байесовскому подходу.
источник
Обратите внимание, что информативные априорные значения не обязательно являются субъективными, например, я бы не считал субъективным знанием утверждать, что предварительное знание некоторой физической системы должно быть независимым от единиц измерения (поскольку они по существу произвольны), что приводит к идее групп преобразования и "минимально информативные" приоры.
Обратная сторона игнорирования субъективных знаний заключается в том, что ваша система может быть неоптимальной, поскольку вы игнорируете экспертные знания, поэтому субъективность не обязательно является плохой вещью. Например, в обычной задаче «сделать вывод о предвзятости монеты», часто используемой в качестве мотивирующего примера, вы будете учиться относительно медленно с единообразным априором по мере поступления данных. Но все ли предубеждения одинаково вероятны как разумное предположение? Нет, легко сделать слегка смещенную монету или ту, которая полностью смещена (две головы или два счета), поэтому, если мы встроим это предположение в наш анализ с помощью субъективного априора, нам потребуется меньше данных, чтобы определить, что предвзятость на самом деле есть.
Частые анализы также часто содержат субъективные элементы (например, решение отклонить нулевую гипотезу, если значение р меньше 0,05, логическое принуждение к этому отсутствует, это просто традиция, которая оказалась полезной). Преимущество байесовского подхода состоит в том, что субъективность делается явной в расчете, а не остается неявной.
В конце концов, это вопрос «лошадей для курсов», вы должны иметь оба набора инструментов в своем наборе инструментов и быть готовыми использовать лучший инструмент для выполнения поставленной задачи.
источник
Байесовская структура имеет большое преимущество перед частыми, потому что она не зависит от наличия «хрустального шара» с точки зрения знания правильных предположений о распределении, которые необходимо сделать. Байесовские методы зависят от того, какую информацию вы имеете, и от того, как закодировать эту информацию в распределении вероятностей.
Использование байесовских методов в основном использует теорию вероятностей в ее полном объеме. Теорема Байеса - не что иное, как переформулировка классического правила теории вероятностей произведения:
Теперь, если вы думаете, что теорема Байеса является подозрительной, то, по логике, вы также должны думать, что правило продукта также является подозрительным. Вы можете найти дедуктивный аргумент здесь , который выводит произведение и сумму правило, аналогичную теорему Коксы. Более подробный список необходимых предположений можно найти здесь .
Насколько я знаю, частые умозаключения не основаны на ряде основ в логической структуре. Поскольку он использует аксиомы вероятности Колмогорова, похоже, нет никакой связи между теорией вероятности и статистическим выводом. Нет никаких аксиом для частого вывода, которые приводят к процедуре, которой нужно следовать. Существуют принципы и методы (максимальное правдоподобие, доверительные интервалы, p-значения и т. Д.), И они работают хорошо, но они, как правило, изолированы и специализируются на конкретных проблемах. Я думаю, что методы часто используются в своих основах нечетко, по крайней мере, с точки зрения строгой логической структуры.
Использование равномерного априора часто удобное приближение, когда вероятность высока по сравнению с априорной. Иногда это не стоит усилий, чтобы пройти и правильно настроить предварительную. Точно так же не делайте ошибку, путая байесовскую статистику с MCMC. MCMC - это просто алгоритм интегрирования, такой же, как и в квадрате Гасса, и в классе, аналогичном приближению Лапласа. Это немного более полезно, чем квадратичное, потому что вы можете повторно использовать выходные данные алгоритма для выполнения всех ваших интегралов (апостериорные средние и дисперсии являются интегралами), и немного более общего, чем Лаплас, потому что вам не нужна большая выборка или хорошо округленный пик в задней части (хотя Лаплас быстрее).
источник
Однако это (на мой взгляд) не самый важный аспект байесовских методологий. Байесовские методы являются генеративными, поскольку они предоставляют полную «историю» того, как данные появились. Таким образом, они не просто шаблонные искатели, а скорее способны принять во внимание всю реальность ситуации. Например, рассмотрим LDA (скрытое распределение Дирихле), которое предоставляет полную генеративную историю о том, как появляется текстовый документ, и выглядит примерно так:
Таким образом, модель подходит на основе очень специфического понимания объектов в домене (здесь текстовые документы) и того, как они были созданы; поэтому информация, которую мы получаем, адаптируется непосредственно к нашей проблемной области (вероятность слов заданных тем, вероятность упоминания тем вместе, вероятность документов, содержащих темы и в какой степени и т. д.). Тот факт, что для этого требуется теорема Байеса, почти вторичен, отсюда и небольшая шутка: «Байес не был бы байесовским, а Христос не был бы христианином».
Короче говоря, байесовские модели предназначены для строгого моделирования доменных объектов с использованием вероятностных распределений; следовательно, мы можем кодировать знания, которые иначе были бы недоступны, с помощью простого распознающего метода.
источник