Преимущества гауссовских процессов

13

У меня эта путаница связана с преимуществами гауссовских процессов. Я имею в виду сравнение с простой линейной регрессией, где мы определили, что линейная функция моделирует данные.

Однако в гауссовых процессах мы определяем распределение функций, что означает, что мы не определяем, что функция должна быть линейной. Мы можем определить априор над функцией, которая является гауссовским априором, который определяет такие особенности, как то, насколько гладкой должна быть функция, и все.

Поэтому нам не нужно явно определять, какой должна быть модель. Однако у меня есть вопросы. У нас есть предельное правдоподобие, и, используя его, мы можем настроить параметры функции ковариации гауссовского априора. Так что это похоже на определение типа функции, которой она должна быть, не так ли.

Это сводится к тому же, что определяет параметры, хотя в GP они являются гиперпараметрами. Например, в этой статье . Они определили, что средняя функция ГП является чем-то вроде

м(Икс)знак равноaИкс2+бИкс+ст.е. многочлен второго порядка.

Так что определенно модель / функция определена не так ли. Так какая разница в определении функции, которая будет линейной, как в LR.

Я просто не понял, какая польза от использования GP

user34790
источник

Ответы:

7

Давайте вспомним некоторые формулы о регрессии гауссовского процесса. Предположим, что у нас есть выборка . Для этого примера логарифмическое правдоподобие имеет вид: L = - 1Dзнак равно(Икс,Y)знак равно{(Икся,Yя)}язнак равно1N гдеК={к(хя,хJ)} N я , J = 1 является матрицей ковариации образца. Тамk(xi,xj)- ковариационная функция с параметрами, которые мы настраиваем, используя максимизацию логарифмического правдоподобия. Предсказание (среднее значение) для новой точкиxимеет вид:

Lзнак равно-12(журнал|К|+YTК-1Y),
Кзнак равно{К(Икся,ИксJ)}я,Jзнак равно1NК(Икся,ИксJ)Икс- вектор ковариаций между новой точкой и точками выборки. там k = { k ( x , x i ) } N i = 1
Y^(Икс)знак равноКК-1Y,
Кзнак равно{К(Икс,Икся)}язнак равно1N

К(Икся,ИксJ)знак равноИксяTИксJ

Y^(Икс)знак равноИксTИксT(ИксИксT)-1Yзнак равноИксT(ИксTИкс)-1ИксTY,
(ИксИксT)-1

ехр(-(Икся-ИксJ)TA-1(Икся-ИксJ))A - матрица гиперпараметров настраиваем). Очевидно, что в этом случае апостериорное значение не является линейной функцией (см. Изображение).

введите описание изображения здесь,

Таким образом, преимущество заключается в том, что мы можем моделировать нелинейные функции, используя правильную ковариационную функцию (мы можем выбрать современную, в большинстве случаев квадратная экспоненциальная ковариационная функция является довольно хорошим выбором). Источником нелинейности является не упомянутый вами компонент тренда, а ковариационная функция.

Алексей Зайцев
источник
3
Я бы сказал, что это только одно преимущество GP, которое также используется другими методами ядра. Быть вероятностным и исходить из байесовских рамок - еще одно преимущество GP.
Седа
2

Иксее(Икс)

мaИксеИксеμΣ (неопределенность), позволяющая, например, оптимизировать дорогостоящие функции черного ящика.

Томаш Бартковяк
источник