Случайные случайные поля (CRF) являются частным случаем марковских случайных полей (MRF).
1.5.4 Условное случайное поле
Условное случайное поле (CRF) - это форма MRF, которая определяет апостериор для переменных x с данными z, как со скрытой MRF выше. Однако, в отличие от скрытого MRF, факторизация в распределение данных P (x | z) и предшествующий P (x) не сделана явной [288]. Это позволяет записывать сложные зависимости x от z непосредственно в апостериорном распределении без явной факторизации. (Учитывая P (x | z), такие факторизации всегда существуют, однако - на самом деле их бесконечно много), поэтому нет никаких предположений о том, что CRF является более общим, чем скрытый MRF, только для того, чтобы с ним было удобнее иметь дело .)
Источник: Блейк, Кохли и Ротер: марковские случайные поля для зрения и обработки изображений. 2011.
Условное случайное поле или CRF (Lafferty et al. 2001), иногда дискриминирующее случайное поле (Kumar and Hebert 2003), является просто версией MRF, где все потенциалы клика обусловлены входными характеристиками: [...]
Преимущество CRF над MRF аналогично преимуществу дискриминационного классификатора над генеративным классификатором (см. Раздел 8.6), а именно, нам не нужно «тратить ресурсы» на моделирование вещей, которые мы всегда наблюдаем. [...]
Недостаток CRF по сравнению с MRF состоит в том, что они требуют помеченных данных обучения, и они медленнее обучаются [...]
MRF против сетей Байеса . Ненормативно (но обычно) говоря , существует два типа графических моделей: неориентированные графические модели и ориентированные графические модели (еще один тип, например, граф Таннера). Первый также известен как Марковские случайные поля / сеть Маркова, а более поздние байесовские сети / сеть Байеса. (Иногда предположения о независимости в обоих могут быть представлены хордовыми графами)
Марков подразумевает способ факторизации, а случайное поле означает конкретное распределение среди тех, которые определены неориентированной моделью.
CRF ∈ MRF : когда наблюдаются некоторые переменные, мы можем использовать то же представление ненаправленного графа (как и ненаправленные графы) и параметризацию для кодирования условного распределения п( Y| Икс) где Y - набор целевых переменных, а Икс - (непересекающийся ) множество наблюдаемых переменных.
И единственное отличие состоит в том, что для стандартной марковской сети термин нормализации суммируется по X и Y, а для CRF - только по Y.
Давайте сопоставим условный вывод в MRF с моделированием с использованием CRF, остановимся на определениях, а затем обратимся к исходному вопросу.
MRF
грамм
грамм
граммВяВJВяВJВяп( { Vя} )грамм
Условный вывод под MRF
Поскольку MRF представляет собой совместное распределение по многим переменным, которое подчиняется марковским ограничениям, то мы можем вычислить условные распределения вероятностей с учетом наблюдаемых значений некоторых переменных.
Например, если у меня есть совместное распределение по четырем случайным переменным: IsRaining, SprinklerOn, SidewalkWet и GrassWet, то в понедельник я могу вывести совместное распределение вероятностей по IsRaining и SprinklerOn, учитывая, что я наблюдал SidewalkWet = False и GrassWet = Правда. Во вторник я мог бы сделать вывод о совместном распределении вероятностей по IsRaining и SprinklerOn, учитывая, что я наблюдал SidewalkWet = True и GrassWet = True.
Другими словами, мы можем использовать одну и ту же модель MRF, чтобы сделать выводы в этих двух разных ситуациях, но мы бы не сказали, что изменили модель. На самом деле, хотя мы наблюдали SidewalkWet и GrassWet в обоих описанных здесь случаях, сама MRF сама по себе не имеет «наблюдаемых переменных» - все переменные имеют одинаковый статус в глазах MRF, поэтому MRF также моделирует, например, совместное распространение SidewalkWet и GrassWet.
CRF
грамм
грамм{ Xя}Nя = 1{ Yя}мя = 1
п( { Yя}мя = 1| { Xя}Nя = 1)грамм
Различия
грамм
обозначает подмножество переменных как «наблюдаемые»
определяет только условное распределение по ненаблюдаемым данным наблюдаемым переменным; он не моделирует вероятность наблюдаемых переменных (если распределения выражаются в терминах параметров, это часто рассматривается как преимущество, поскольку параметры не теряются при объяснении вероятности того, что всегда будет известно)
грамм
{ Xя}граммграмм'{ Yя}{ Yя}{ Xя}{ Yя}{ Xя}
пример
YяИкс1, X2, . , , Иксn - 1ИксN
грамм{Xi}{Yi}{Xi}
Вывод
GGGGGG
В дополнение к потенциальной экономии параметров модели, повышенной выразительности условной модели и сохранению эффективности логического вывода, последний важный момент в отношении рецепта CRF заключается в том, что для дискретных моделей (и большого подмножества недискретных моделей), несмотря на Выраженность семейства CRF, логарифмическая правдоподобие может быть выражена в виде выпуклой функции параметров функции, допускающей глобальную оптимизацию с градиентным спуском.
Ответы:
Хорошо, я нашел ответ сам:
Случайные случайные поля (CRF) являются частным случаем марковских случайных полей (MRF).
Источник: Блейк, Кохли и Ротер: марковские случайные поля для зрения и обработки изображений. 2011.
Источник: Кевин П. Мерфи: Машинное обучение: вероятностная перспектива
Отвечая на мой вопрос:
Да. Фиксация значений - это то же самое, что кондиционирование на них. Тем не менее, вы должны заметить, что в обучении тоже есть различия.
Просмотр многих лекций о PGM (вероятностных графических моделях) на Coursera мне очень помог.
источник
MRF против сетей Байеса . Ненормативно (но обычно) говоря , существует два типа графических моделей: неориентированные графические модели и ориентированные графические модели (еще один тип, например, граф Таннера). Первый также известен как Марковские случайные поля / сеть Маркова, а более поздние байесовские сети / сеть Байеса. (Иногда предположения о независимости в обоих могут быть представлены хордовыми графами)
Марков подразумевает способ факторизации, а случайное поле означает конкретное распределение среди тех, которые определены неориентированной моделью.
CRF∈ MRF : когда наблюдаются некоторые переменные, мы можем использовать то же представление ненаправленного графа (как и ненаправленные графы) и параметризацию для кодирования условного распределения п( Y| Икс) где Y - набор целевых переменных, а Икс - (непересекающийся ) множество наблюдаемых переменных.
И единственное отличие состоит в том, что для стандартной марковской сети термин нормализации суммируется по X и Y, а для CRF - только по Y.
Ссылка:
источник
Давайте сопоставим условный вывод в MRF с моделированием с использованием CRF, остановимся на определениях, а затем обратимся к исходному вопросу.
MRF
Условный вывод под MRF
Поскольку MRF представляет собой совместное распределение по многим переменным, которое подчиняется марковским ограничениям, то мы можем вычислить условные распределения вероятностей с учетом наблюдаемых значений некоторых переменных.
Например, если у меня есть совместное распределение по четырем случайным переменным: IsRaining, SprinklerOn, SidewalkWet и GrassWet, то в понедельник я могу вывести совместное распределение вероятностей по IsRaining и SprinklerOn, учитывая, что я наблюдал SidewalkWet = False и GrassWet = Правда. Во вторник я мог бы сделать вывод о совместном распределении вероятностей по IsRaining и SprinklerOn, учитывая, что я наблюдал SidewalkWet = True и GrassWet = True.
Другими словами, мы можем использовать одну и ту же модель MRF, чтобы сделать выводы в этих двух разных ситуациях, но мы бы не сказали, что изменили модель. На самом деле, хотя мы наблюдали SidewalkWet и GrassWet в обоих описанных здесь случаях, сама MRF сама по себе не имеет «наблюдаемых переменных» - все переменные имеют одинаковый статус в глазах MRF, поэтому MRF также моделирует, например, совместное распространение SidewalkWet и GrassWet.
CRF
Различия
обозначает подмножество переменных как «наблюдаемые»
определяет только условное распределение по ненаблюдаемым данным наблюдаемым переменным; он не моделирует вероятность наблюдаемых переменных (если распределения выражаются в терминах параметров, это часто рассматривается как преимущество, поскольку параметры не теряются при объяснении вероятности того, что всегда будет известно)
пример
Вывод
В дополнение к потенциальной экономии параметров модели, повышенной выразительности условной модели и сохранению эффективности логического вывода, последний важный момент в отношении рецепта CRF заключается в том, что для дискретных моделей (и большого подмножества недискретных моделей), несмотря на Выраженность семейства CRF, логарифмическая правдоподобие может быть выражена в виде выпуклой функции параметров функции, допускающей глобальную оптимизацию с градиентным спуском.
Смотрите также: оригинальная статья и этот урок
источник