Почему мы должны обсуждать поведение конвергенции разных оценок в разных топологиях?

В первой главе книги « Алгебраическая геометрия и теория статистического обучения», в которой говорится о сходимости оценок в разных функциональных пространствах, упоминается, что байесовская оценка соответствует топологии распределения Шварца, тогда как оценка максимального правдоподобия соответствует топологии sup-norm. (на странице 7):

Например, sup-норма, $L^p$ -норма, слабая топология гильбертова пространства $L^2$ , топология распределения Шварца и т. Д. От топологии функционального пространства сильно зависит, имеет ли место сходимость $K_n(w)\to K(w)$ или нет. Байесовская оценка соответствует топологии распределения Шварца, тогда как метод максимального правдоподобия или апостериорный метод соответствует верхней норме. Эта разница сильно влияет на результаты обучения в единичных моделях.

где и - соответственно эмпирическая KL-дивергенция (суммирование по наблюдениям) и истинная KL-дивергенция (интеграл по распределению данных) между истинной моделью и параметрической моделью (с параметром ). $K_n(w)$ $K(w)$ $w$

Кто-нибудь может дать объяснение или намекнуть, какое место в книге имеет оправдание? Спасибо.

Обновление : содержание авторских прав удаляется.

bayesian maximum-likelihood statistical-learning ziyuang
источник

что такое

K

$K$

K_{n}

$K_n$

Тейлор

@ Тейлор Я добавил необходимую информацию.

Цзыюан

Я отвечу на ваш вопрос позже, я знаю книгу Ватанабе относительно хорошо. И все же мне очень не нравится, как вы цитируете книгу. Это может вызвать потенциальную проблему с авторским правом, если вы разместите разделы прямо здесь. Использование номеров страниц и ввод цитат с соответствующим нагрудником будет лучшим выбором.

Henry.L

@ Henry.L Спасибо, и авторские права удалены.

Ziyuang

@Henry: Хотя я считаю, что осторожность и добросовестность в воспроизведении частей произведений, защищенных авторским правом, имеет смысл, в этом случае ziyuang совершенно не о чем беспокоиться. Использование ОП небольших отрывков для научной критики совершенно прямо подпадает под (США) доктрину «добросовестного использования». Действительно, точное воспроизведение иногда может быть особенно ценным, поскольку оно устраняет любые неясности, которые могут быть внесены при повторном изложении содержания. (Все, что сказал, IANAL.)

кардинал

Чтобы понять дискуссию Ватанабе, важно понять, что он имел в виду под «сингулярностью». (Строгая) особенность совпадает с геометрическим понятием особой метрики в его теории.

с.10 [Watanabe]: «Статистическая модель называется регулярной, если она идентифицируема и имеет положительно определенную метрику. Если статистическая модель не является регулярной, то она называется строго сингулярной». $p(x\mid w)$

На практике сингулярность обычно возникает, когда информационная метрика Фишера, индуцированная моделью, вырождена на многообразии, определяемом моделью, как в случае ранга или разрежения в «машинном обучении».

То, что Ватанабе сказал о сходимости эмпирической дивергенции КЛ к ее теоретическому значению, можно понять следующим образом. Одним из источников понятия дивергенции является надежная статистика. M-оценки, которые включают MLE как частный случай с функцией контраста , обычно обсуждаются с использованием слабой топологии. Целесообразно обсудить поведение сходимости с использованием слабой топологии над пространством (многообразием всех возможных мер, определенных на польском пространстве $\rho(\theta,\delta(X))=-\log p(X\mid \theta)$ $M(\cal{X})$ $\cal{X}$ ) потому что мы хотим изучить устойчивость MLE. Классическая теорема в [Huber] гласит, что при хорошо разделенной функции дивергенции . $D(\theta_0,\theta)=E_{\theta_{0}}\rho(\theta,\delta)$

\underset{| θ - θ_{0} | \geq ε}{инф} (| D (θ_{0}, θ) - D (θ_{0}, θ_{0}) |) > 0

$\inf_{|\theta-\theta_0|\geq\epsilon}(|D(\theta_0,\theta)-D(\theta_0,\theta_0)| )>0$ и хорошее эмпирическое приближение контрастной функции к дивергенции,

вместе с регулярностью, мы можем дать последовательность в смысле

\underset{θ}{вир} | \frac{1}{N} \underset{я}{Σ} ρ (θ, δ ({Икс}_{я})) - D (θ_{0}, θ) | \to 0, N \to \infty

$\sup_{\theta}\left|\frac{1}{n}\sum_{i}\rho(\theta,\delta(X_i))- D(\theta_0,\theta)\right|\rightarrow 0,n\rightarrow\infty$

будет сходиться к

с вероятностью

. Этот результат требует гораздо более точных условий, если сравнивать с результатом Дуба [Дуба] в слабой согласованности байесовской оценки.

\hat{θ_{N}} знак равно {a р грамм м я N}_{θ} ρ (θ, δ ({Икс}_{N}))

$\hat{\theta_n}:=\mathrm{arg\,min}_{\theta}\rho(\theta,\delta(X_n))$

θ_{0}

$\theta_0$

P_{θ_{0}}

$P_{\theta_0}$

Так что здесь байесовские оценки и MLE расходятся. Если мы все еще будем использовать слабую топологию для обсуждения согласованности байесовских оценок, это бессмысленно, потому что байесовские оценки всегда (с вероятностью один) будут согласовываться Дубом. Поэтому более подходящей топологией является топология распределения Шварца, которая допускает использование слабых производных и теория фон Мизеса. У Бэррона был очень хороший технический отчет по этой теме, как мы можем использовать теорему Шварца для получения согласованности.

$D$

Это влияет на «особый результат обучения», потому что, как мы видим, теорема согласованности Дуба обеспечивает слабую согласованность байесовских оценок (даже в сингулярной модели) в слабой топологии, в то время как MLE должен отвечать определенным требованиям в той же топологии.

Только одно слово, [Ватанабэ] не для начинающих. Это имеет некоторые глубокие последствия для реальных аналитических наборов, что требует большей математической зрелости, чем у большинства статистиков, поэтому, вероятно, не стоит читать их без соответствующего руководства.

$\blacksquare$

[Ватанабэ] Ватанабе, Сумио. Алгебраическая геометрия и статистическая теория обучения. Том 25. Издательство Кембриджского университета, 2009.

[Хубер] Хубер, Питер Дж. «Поведение оценок максимального правдоподобия в нестандартных условиях». Материалы пятого симпозиума в Беркли по математической статистике и вероятности. Том 1. № 1. 1967.

[Дуб] Дуб, Джозеф Л. «Применение теории мартингалов». Le calcul des probabilites et ses Приложения (1949): 23-27.

Henry.L
источник

Я пытаюсь дать некоторую интуицию для частей ответа, поэтому поправьте меня, если я ошибаюсь. Байесовская оценка является последовательной, если мы рассматриваем ее как точечную оценку (MAP, а не вероятностное распределение). Это требует меньшего количества условий для его согласованности, чем MLE, потому что ранее действовал как регуляризация. С другой стороны, топология распределения Шварца является более подходящей, когда мы рассматриваем оценку Байеса как распределение, она также помогает построить более тесную связь между непротиворечивостью оценки MLE и оценки Байеса, так что случай, когда один расходится, а другой сходится, не будет ,

Ziyuang

Извините, но я не думаю, что ваше объяснение верно. Предыдущее действует как регуляризация, но это не обязательно контролирует скорость сходимости. На самом деле плоские приоры на самом деле замедляют сходимость. Это просто две разные топологии.

Henry.L

Почему мы должны обсуждать поведение конвергенции разных оценок в разных топологиях?

Ответы: