В своей книге «Вся статистика» профессор Ларри Вассерман приводит следующий пример (11.10, стр. 188). Предположим , что мы имеем плотность такой , что , где является известным (неотрицательное интегрируемой) функции и нормализация постоянной является неизвестной .c > 0
Нас интересуют те случаи, когда мы не можем вычислить . Например, это может быть случай, когда - это PDF-файл в очень большом размерном пространстве.
Хорошо известно, что существуют методы моделирования, которые позволяют нам выбирать из , даже если неизвестно. Следовательно, загадка заключается в следующем: как мы можем оценить по такой выборке?
Профессор Вассерман описывает следующее байесовское решение: пусть будет некоторым априором для . Вероятность: Следовательно, апостериорный не зависит от значений выборки . Следовательно, байесовский не может использовать информацию, содержащуюся в образце, чтобы сделать выводы о .
Профессор Вассерман указывает, что «байесовцы являются рабами функции вероятности. Когда вероятность искажается, то и байесовский вывод».
Мой вопрос к моим коллегам-укладчикам таков: что касается этого конкретного примера, что пошло не так (если вообще что-то) с байесовской методологией?
PS Профессор Вассерман любезно объяснил в своем ответе, что пример принадлежит Эду Джорджу.
Ответы:
Это обсуждалось в моей статье (опубликованной только в Интернете) «На примере Ларри Вассермана» [ 1 ] и в блог-обмене между мной, Вассерманом, Робинсом и некоторыми другими комментаторами в блоге Вассермана: [ 2 ]
Короткий ответ заключается в том, что Вассерман (и Робинс) порождают парадоксы, предполагая, что априоры в пространствах с высокой размерностью «должны» иметь характеристики, которые подразумевают либо то, что интересующий параметр известен априори с почти полной уверенностью, либо что явно актуальная проблема (смещение выбора) известно почти наверняка, чтобы не присутствовать. На самом деле разумные приоры не будут иметь этих характеристик. Я нахожусь в процессе написания краткого сообщения в блоге, чтобы сделать это вместе. Есть отличная статья 2007 года, в которой показаны разумные байесовские подходы к примерам, рассмотренным Вассерманом и Ритовым, по Хамелингу и Туссену: «Байесовские оценки для проблемы Робинса-Ритова» [ 3 ]
источник
Я не вижу особой привлекательности в этом примере, особенно как потенциальная критика байесов и вероятностных валлах .... Константа известна, она равна Если является единственным " неизвестно»в картине, поскольку образец , то нет статистического вопроса о проблеме , и я не согласен , что существует оценщик из . Ни приоры на (кроме массы Дирака на вышеуказанном значении). Это не совсем статистическая проблема, а скорее численная проблема.1 / ∫ X g ( x ) d x c x 1 , … , x n c cc
То, что выборка может быть использована посредством оценки плотности (частых), чтобы обеспечить числовое приближение является просто любопытством. Не критика альтернативных статистических подходов: я мог бы также использовать байесовскую оценку плотности ... cx1,…,xn c
источник
Я согласен, что пример странный. Я имел в виду, что это больше похоже на головоломку. (Пример на самом деле из-за Эда Джорджа.)
Это поднимает вопрос о том, что значит что-то быть «известным». Кристиан говорит, что известен. Но, по крайней мере, с чисто субъективной вероятностной точки зрения, вы не знаете этого только потому, что в принципе это может быть известно. (Предположим, вы не можете сделать числовой интеграл.) Субъективный байесовский рассматривает все как случайную величину с распределением, в том числе c .c c
Во всяком случае, бумага
(с обсуждением) рассматривает по существу ту же проблему.
Пример, на который ссылается Крис Симс в своем ответе, имеет совершенно другую природу.
источник
Это невозможно: мы знаем, что если мы начнем с правильного априора, то наш апостериор не может быть неправильным для каждой возможной выборки (он может быть неправильным внутри набора нулевой априорной прогнозирующей вероятности).
источник
Пример немного странный и надуманный. Причина, по которой вероятность искажается, в том, что g - известная функция. Единственный неизвестный параметр - это c, который не является частью вероятности. Кроме того, поскольку известно g, данные не дают информации о f. Когда вы видите такое на практике? Таким образом, апостериор пропорционален предыдущему, а вся информация о c - в предыдущем.
Хорошо, но подумай об этом. Частые пользователи используют максимальное правдоподобие, поэтому часто они также полагаются на функцию правдоподобия. Ну, часто можно оценить параметры другими способами, как вы можете сказать. Но эта готовая задача имеет только один параметр c и в данных о c нет информации. Поскольку известно g, нет статистической проблемы, связанной с неизвестными параметрами, которые можно вычленить за период данных.
источник
источник
Мы могли бы расширить определение возможных известных (аналогично расширению данных, чтобы учесть пропущенные данные для данных, которые наблюдались, но были потеряны), чтобы включить NULL (данные не генерируются).
Таким образом, апостериор будет 0 или 1 (правильный), но вероятность из вышеупомянутой модели данных недоступна (потому что вы не можете определить условие, требуемое в модели данных).
Так ты делаешь азбуку.
Нарисуйте «с» из предыдущего.
Сохраненные «с» будут приближением истинного апостериорного.
(Точность приближения будет зависеть от эпсилона и достаточности кондиционирования в этом приближении.)
источник
источник