Гауссовская проблема регрессии игрушек

Я пытался получить некоторую интуицию для регрессии Гауссова процесса, поэтому я сделал простую 1D игрушечную задачу, чтобы попробовать. Я взял в качестве входных данных, а в качестве ответов. («Вдохновленный» от ) $x_i=\{1,2,3\}$ $y_i=\{1,4,9\}$ $y=x^2$

Для регрессии я использовал стандартную квадратную экспоненциальную функцию ядра:

k (x_{p}, x_{q}) = σ_{f}^{2} \exp (- \frac{1}{2 l^{2}} {| x_{p} - x_{q} |}^{2})

$k(x_p,x_q)=\sigma_f^2 \exp \left( - \frac{1}{2l^2} \left|x_p-x_q\right|^2 \right)$

Я предположил, что был шум со стандартным отклонением , так что ковариационная матрица стала: $\sigma_n$

K_{p q} = k (x_{p}, x_{q}) + σ_{n}^{2} δ_{p q}

$K_{pq} = k(x_p,x_q) + \sigma_n^2 \delta_{pq}$

Гиперпараметры были оценены путем максимизации журнала вероятности данных. Чтобы сделать прогноз в точке , я нашел среднее значение и дисперсию соответственно следующим $(\sigma_n,l,\sigma_f)$ $x_\star$

μ_{x_{⋆}} = k_{⋆}^{T} (K + σ_{n}^{2} I)^{- 1} y

$\mu_{x_\star} = k_\star^T (\mathbf{K}+\sigma_n^2\mathbf{I})^{-1} y$

σ_{x_{⋆}}^{2} = k (x_{⋆}, x_{⋆}) - k_{⋆}^{T} (K + σ_{n}^{2} I)^{- 1} k_{⋆}

$\sigma_{x_\star}^2 = k(x_\star,x_\star)-k_\star^T(\mathbf{K}+\sigma_n^2\mathbf{I})^{-1} k_\star$

где - вектор ковариации между и входами, а - вектор выходов. $k_\star$ $x_\star$ $y$

$1<x<3$

Результаты

Я не уверен, что это правильно, хотя; мои входные данные (отмеченные знаком X) не лежат на синей линии. Большинство примеров, которые я вижу, имеют среднее значение, пересекающее входы. Это общая черта?

regression gaussian-process Comp_Warrior
источник

Если бы мне пришлось угадывать, в примерах, которые вы просматривали, не было остаточной ошибки. В этом случае линия пройдет через все точки.

парень

@ Гай точно.

Ответы:

Средняя функция, проходящая через точки данных, обычно является признаком перенастройки. Оптимизация гиперпараметров путем максимизации предельной вероятности будет иметь тенденцию отдавать предпочтение очень простым моделям, если нет данных, достаточных для обоснования чего-либо более сложного. Поскольку у вас есть только три точки данных, более или менее совпадающие с небольшим шумом, найденная модель кажется мне вполне разумной. По сути, данные могут быть объяснены либо как линейная базовая функция с умеренным шумом, либо как умеренно нелинейная базовая функция с небольшим шумом. Первая является более простой из двух гипотез, и ей нравится «бритва Оккама».

Дикран Сумчатый
источник

Спасибо за вклад. Можете ли вы рассказать мне больше о "перетяжке"; это положительная / отрицательная особенность?

Comp_Warrior

чрезмерная подгонка - отрицательная вещь, в основном это означает, что модель запоминает случайные изменения в данных, что, как правило, ухудшает производительность обобщения. В идеале вы хотите, чтобы модель изучала основную форму данных, игнорируя при этом шум, загрязняющий их. Большинство хороших учебников по машинному обучению расскажут об этом в первой главе.

Дикран Marsupial

просто из интереса, зачем понизить голос?

Дикран Marsupial

Я не отрицал тебя; на самом деле я проголосовал!

Comp_Warrior

нет проблем Comp_Warrior, я не думал, что это был ты, но кто-то снизил мой ответ, и я был бы рад получить отзыв о том, почему. Мы все ошибаемся, и если в моем ответе что-то не так, я очень хочу это исправить.

Дикран Marsupial

Вы используете оценки Кригинга с добавлением шумового термина (известного как эффект самородка в литературе по гауссовскому процессу). Если шумовой термин был установлен на ноль, т.е.

σ_{n}^{2} δ_{p q} = 0

$\sigma^2_n \delta_{pq}=0$

тогда ваши прогнозы будут действовать как интерполяция и проходить через точки выборки данных.

источник

Для меня это выглядит нормально, в книге ГП Расмуссена определенно показаны примеры, когда функция среднего значения не проходит через каждую точку данных. Обратите внимание, что линия регрессии является оценкой для базовой функции, и мы предполагаем, что наблюдения являются значениями базовой функции плюс некоторый шум. Если бы линия регрессии базировалась на всех трех точках, это, по сути, означало бы, что в наблюдаемых значениях нет шума.

$\sigma_n = 0$

$l$

$l$ $l$

Как отметил Дикран Марсупиал, это встроенная функция гауссовских процессов, предельная вероятность наказывает слишком специфичные модели и предпочитает модели, которые могут объяснить множество наборов данных.

Макс С.
источник