В первой главе книги « Алгебраическая геометрия и теория статистического обучения», в которой говорится о сходимости оценок в разных функциональных пространствах, упоминается, что байесовская оценка соответствует топологии распределения Шварца, тогда как оценка максимального правдоподобия соответствует топологии sup-norm. (на странице 7):
Например, sup-норма, -норма, слабая топология гильбертова пространства , топология распределения Шварца и т. Д. От топологии функционального пространства сильно зависит, имеет ли место сходимость или нет. Байесовская оценка соответствует топологии распределения Шварца, тогда как метод максимального правдоподобия или апостериорный метод соответствует верхней норме. Эта разница сильно влияет на результаты обучения в единичных моделях.
где и K ( w ) - соответственно эмпирическая KL-дивергенция (суммирование по наблюдениям) и истинная KL-дивергенция (интеграл по распределению данных) между истинной моделью и параметрической моделью (с параметром w ).
Кто-нибудь может дать объяснение или намекнуть, какое место в книге имеет оправдание? Спасибо.
Обновление : содержание авторских прав удаляется.
Ответы:
Чтобы понять дискуссию Ватанабе, важно понять, что он имел в виду под «сингулярностью». (Строгая) особенность совпадает с геометрическим понятием особой метрики в его теории.
На практике сингулярность обычно возникает, когда информационная метрика Фишера, индуцированная моделью, вырождена на многообразии, определяемом моделью, как в случае ранга или разрежения в «машинном обучении».
То, что Ватанабе сказал о сходимости эмпирической дивергенции КЛ к ее теоретическому значению, можно понять следующим образом. Одним из источников понятия дивергенции является надежная статистика. M-оценки, которые включают MLE как частный случай с функцией контраста , обычно обсуждаются с использованием слабой топологии. Целесообразно обсудить поведение сходимости с использованием слабой топологии над пространством M ( X ) (многообразием всех возможных мер, определенных на польском пространстве X).ρ ( θ , δ( Х) ) = - журналр ( х∣ θ ) M(Х) Икс ) потому что мы хотим изучить устойчивость MLE. Классическая теорема в [Huber] гласит, что при хорошо разделенной функции дивергенции . инф | θ - θ 0 | ≥ ϵ ( | D ( θ 0 , θ ) - D ( θ 0 , θ 0 ) | ) > 0D ( θ0, θ ) = Eθ0ρ ( θ , δ)
Так что здесь байесовские оценки и MLE расходятся. Если мы все еще будем использовать слабую топологию для обсуждения согласованности байесовских оценок, это бессмысленно, потому что байесовские оценки всегда (с вероятностью один) будут согласовываться Дубом. Поэтому более подходящей топологией является топология распределения Шварца, которая допускает использование слабых производных и теория фон Мизеса. У Бэррона был очень хороший технический отчет по этой теме, как мы можем использовать теорему Шварца для получения согласованности.
Это влияет на «особый результат обучения», потому что, как мы видим, теорема согласованности Дуба обеспечивает слабую согласованность байесовских оценок (даже в сингулярной модели) в слабой топологии, в то время как MLE должен отвечать определенным требованиям в той же топологии.
Только одно слово, [Ватанабэ] не для начинающих. Это имеет некоторые глубокие последствия для реальных аналитических наборов, что требует большей математической зрелости, чем у большинства статистиков, поэтому, вероятно, не стоит читать их без соответствующего руководства.
[Ватанабэ] Ватанабе, Сумио. Алгебраическая геометрия и статистическая теория обучения. Том 25. Издательство Кембриджского университета, 2009.
[Хубер] Хубер, Питер Дж. «Поведение оценок максимального правдоподобия в нестандартных условиях». Материалы пятого симпозиума в Беркли по математической статистике и вероятности. Том 1. № 1. 1967.
[Дуб] Дуб, Джозеф Л. «Применение теории мартингалов». Le calcul des probabilites et ses Приложения (1949): 23-27.
источник