Перекрестная проверка и эмпирический байесовский метод оценки гиперпараметров

20

Учитывая иерархическую модель , я хочу двухэтапный процесс, чтобы соответствовать модели. Сначала исправьте несколько гиперпараметров , а затем сделайте байесовский вывод по остальным параметрам . Для фиксации гиперпараметров я рассматриваю два варианта.θ ϕп(Икс|φ,θ)θφ

  1. Используйте эмпирический байесовский анализ (EB) и максимизируйте предельное правдоподобие (объединяя остальную часть модели, которая содержит параметры высокого измерения).п(все данные|θ)
  2. Используйте методы перекрестной проверки (CV) , такие как перекрестная проверка в кратном порядке, чтобы выбрать которое максимизирует вероятность .θ p ( данные испытаний | тренировочные данные , θ )Кθп(данные испытаний|данные обучения,θ)

Преимущество EB в том, что я могу использовать все данные одновременно, в то время как для CV мне нужно (потенциально) вычислить вероятность модели несколько раз и искать . Эффективность EB и CV во многих случаях сравнимы (*), и часто EB оценивается быстрее.θ

Вопрос: Есть ли теоретическая основа, которая связывает два (скажем, EB и CV одинаковы в пределе больших данных)? Или связывает EB с некоторым критерием обобщения, таким как эмпирический риск? Может кто-нибудь указать на хороший справочный материал?


(*) В качестве иллюстрации приведена фигура из машинного обучения Мерфи , раздел 7.6.4, где он говорит, что для регрессии гребня обе процедуры дают очень похожий результат:

Мерфи - эмпирический байес против CV

Мерфи также говорит, что основное практическое преимущество эмпирического байесовского алгоритма (он называет это «процедурой доказательства») перед CV заключается в том, что состоит из множества гиперпараметров (например, отдельного штрафа за каждую функцию, например, при автоматическом определении релевантности или ARD). Там вообще невозможно использовать CV.θ

Memming
источник
θ
@NeilG максимизация суммы вероятности предельных данных логарифмического предела для наборов перекрестной проверки (k интегрировано).
Memming
1
К
2
Отличный вопрос Я позволил себе добавить к вашему вопросу цифру из учебника Мерфи, чтобы проиллюстрировать вашу точку зрения о том, что две процедуры часто сравнимы. Надеюсь, вы не будете против этого дополнения.
говорит амеба, восстанови Монику

Ответы:

16

Я сомневаюсь, что будет теоретическая связь, которая говорит, что CV и максимизация свидетельства асимптотически эквивалентны, поскольку свидетельство говорит нам о вероятности получения данных с учетом предположений модели . Таким образом, если модель неверно определена, то доказательства могут быть ненадежными. Перекрестная проверка, с другой стороны, дает оценку вероятности данных, независимо от того, верны ли предположения моделирования или нет. Это означает, что доказательство может быть лучшим руководством, если предположения моделирования верны с использованием меньшего количества данных, но перекрестная проверка будет устойчивой к ошибочной спецификации модели. CV асимптотически беспристрастен, но я предположил бы, что доказательства не будут, если модельные предположения не окажутся абсолютно правильными.

Это по сути моя интуиция / опыт; Мне также было бы интересно услышать об исследовании этого.

Обратите внимание, что для многих моделей (например, регрессии гребня, гауссовских процессов, регрессии гребня ядра / LS-SVM и т. Д.) Перекрестная проверка по принципу «один-один-один-один» может быть выполнена, по меньшей мере, так же эффективно, как и оценка свидетельства, поэтому необязательно требуется вычислительная оценка. преимущество там.

Приложение. Оценки эффективности как предельного правдоподобия, так и перекрестной проверки оцениваются по конечной выборке данных, и, следовательно, всегда существует возможность переопределения, если модель настраивается путем оптимизации любого из критериев. Для небольших выборок разница в дисперсии двух критериев может решить, какой из них лучше подходит. Смотри мою статью

Гэвин К. Коули, Никола Л.К. Тэлбот, «О переоснащении при выборе модели и смещении последующего выбора при оценке эффективности», Журнал исследований в области машинного обучения, 11 (июль): 2079-2107, 2010. ( pdf )

Дикран Сумчатый
источник
Почему вы говорите, что резюме устойчиво к неправильно определенной модели? В его случае такой защиты нет, поскольку перекрестная проверка выполняется в том же пространстве, в котором EB вычисляет вероятность. Если его допущения при моделировании неверны, перекрестная проверка не спасет его.
Нил Г
1
CV устойчив к ошибочной спецификации в том смысле, что он все еще дает полезный показатель эффективности обобщения. Предельная вероятность может не совпадать, так как она зависит от предшествующего значения (например), даже после того, как вы отстранены отφφθ
PS Я проводил анализ избежания переобучения в нейронных сетях с байесовской регуляризацией, где параметры регуляризации настраиваются с помощью максимизации предельного правдоподобия. Бывают ситуации, когда это работает очень плохо (хуже, чем отсутствие регуляризации вообще). Похоже, это проблема неправильной спецификации модели.
Дикран Marsupial
Он может получить тот же «показатель эффективности обобщения», проверив общую логарифмическую вероятность данных с учетом предполагаемого распределения, возвращаемого EB (которое будет равно энтропии этого распределения). В этом случае нет способа победить, потому что это аналитическое решение этой проблемы. Я не понимаю, почему перекрестная проверка имеет смысл, когда вы можете рассчитать вероятность для EB.
Нил Дж
2
@probabilityislogic, я не совсем уверен, к чему ты клонишь (проблема, несомненно, в моем конце!; o). Я могу сказать вам по практическому опыту, что эта проблема очень реальна. Я работал над проблемами в выборе модели в течение нескольких лет, и я столкнулся со многими проблемами, когда максимизация предельной вероятности оказывается очень плохой идеей. Перекрестная проверка работает примерно также для большинства наборов данных, но там, где она работает плохо, она редко приводит к катастрофическим последствиям, как это иногда бывает при максимизации доказательств.
Дикран Marsupial