Гауссовская проблема регрессии игрушек

9

Я пытался получить некоторую интуицию для регрессии Гауссова процесса, поэтому я сделал простую 1D игрушечную задачу, чтобы попробовать. Я взял в качестве входных данных, а y i = { 1 , 4 , 9 } в качестве ответов. («Вдохновленный» от y = x 2 )xi={1,2,3}yi={1,4,9}y=x2

Для регрессии я использовал стандартную квадратную экспоненциальную функцию ядра:

k(xp,xq)=σf2exp(12l2|xpxq|2)

Я предположил, что был шум со стандартным отклонением , так что ковариационная матрица стала:σn

Kpq=k(xp,xq)+σn2δpq

Гиперпараметры были оценены путем максимизации журнала вероятности данных. Чтобы сделать прогноз в точке x , я нашел среднее значение и дисперсию соответственно следующим(σn,l,σf)x

σ 2 x = k ( x , x ) - k T ( K + σ 2 n I ) - 1 k

μx=kT(K+σn2I)1y
σx2=k(x,x)kT(K+σn2I)1k

где - вектор ковариации между x и входами, а y - вектор выходов.kxy

1<x<3

Результаты

Я не уверен, что это правильно, хотя; мои входные данные (отмеченные знаком X) не лежат на синей линии. Большинство примеров, которые я вижу, имеют среднее значение, пересекающее входы. Это общая черта?

Comp_Warrior
источник
1
Если бы мне пришлось угадывать, в примерах, которые вы просматривали, не было остаточной ошибки. В этом случае линия пройдет через все точки.
парень
@ Гай точно.

Ответы:

10

Средняя функция, проходящая через точки данных, обычно является признаком перенастройки. Оптимизация гиперпараметров путем максимизации предельной вероятности будет иметь тенденцию отдавать предпочтение очень простым моделям, если нет данных, достаточных для обоснования чего-либо более сложного. Поскольку у вас есть только три точки данных, более или менее совпадающие с небольшим шумом, найденная модель кажется мне вполне разумной. По сути, данные могут быть объяснены либо как линейная базовая функция с умеренным шумом, либо как умеренно нелинейная базовая функция с небольшим шумом. Первая является более простой из двух гипотез, и ей нравится «бритва Оккама».

Дикран Сумчатый
источник
Спасибо за вклад. Можете ли вы рассказать мне больше о "перетяжке"; это положительная / отрицательная особенность?
Comp_Warrior
чрезмерная подгонка - отрицательная вещь, в основном это означает, что модель запоминает случайные изменения в данных, что, как правило, ухудшает производительность обобщения. В идеале вы хотите, чтобы модель изучала основную форму данных, игнорируя при этом шум, загрязняющий их. Большинство хороших учебников по машинному обучению расскажут об этом в первой главе.
Дикран Marsupial
просто из интереса, зачем понизить голос?
Дикран Marsupial
Я не отрицал тебя; на самом деле я проголосовал!
Comp_Warrior
2
нет проблем Comp_Warrior, я не думал, что это был ты, но кто-то снизил мой ответ, и я был бы рад получить отзыв о том, почему. Мы все ошибаемся, и если в моем ответе что-то не так, я очень хочу это исправить.
Дикран Marsupial
7

Вы используете оценки Кригинга с добавлением шумового термина (известного как эффект самородка в литературе по гауссовскому процессу). Если шумовой термин был установлен на ноль, т.е.

σn2δpq=0

тогда ваши прогнозы будут действовать как интерполяция и проходить через точки выборки данных.


источник
3

Для меня это выглядит нормально, в книге ГП Расмуссена определенно показаны примеры, когда функция среднего значения не проходит через каждую точку данных. Обратите внимание, что линия регрессии является оценкой для базовой функции, и мы предполагаем, что наблюдения являются значениями базовой функции плюс некоторый шум. Если бы линия регрессии базировалась на всех трех точках, это, по сути, означало бы, что в наблюдаемых значениях нет шума.

σn=0

l

ll

Как отметил Дикран Марсупиал, это встроенная функция гауссовских процессов, предельная вероятность наказывает слишком специфичные модели и предпочитает модели, которые могут объяснить множество наборов данных.

Макс С.
источник