Понимание параметров функции Gaussian Basis для использования в линейной регрессии

12

Я хотел бы применить базисную функцию Гаусса в реализации линейной регрессии. К сожалению, мне сложно понять пару параметров в базовой функции. В частности, и .σμσ

Мой набор данных - это матрица размером 10 000 x 31 10000 образцов и 31 функций. Я читал, что «Каждая базисная функция преобразует входной вектор х в скалярное значение». Таким образом, я предполагаю, что х равен 1 выборке, поэтому 1 х 31 вектор. Отсюда я в замешательстве. Что именно является параметром ? Я читал, что это определяет расположение основных функций. Так это не значит что-то? Я также сброшен с нижнего индекса j ( и ), это заставляет меня думать о j-й строке. Но это, кажется, не имеет смысла. Является ли вектором? Теперь для σ μ ϕ μ jμjμϕμjσэто "управляет пространственным масштабом". Что именно это? Я видел некоторые реализации, которые пробуют такие значения, как .1, .5, 2.5 для этого параметра. Как рассчитываются эти значения? Я проводил исследования и искал примеры для обучения, но пока не смог найти ни одного. Любая помощь или направление с благодарностью! Спасибо.

user2743
источник

Ответы:

11

Когда вы запутались, позвольте мне начать с изложения проблемы и поочередно отвечать на ваши вопросы. У вас есть размер выборки 10000, и каждая выборка описывается вектором признаков . Если вы хотите выполнить регрессии с использованием гауссовских радиальных базисных функций , то ищем функцию вида F ( х ) = Σ J ш J * г J ( х , μ J , σ J ) , J = 1 .. м где г яxR31

f(x)=jwjgj(x;μj,σj),j=1..m
giваши основные функции. В частности, вам нужно найти веса ж J так , что для заданных параметров М J и сг J минимизировать ошибку между у и соответствующим предсказанием у = ф ( х ) - как правило , вы будете минимизировать ошибку наименьших квадратов.mwjμjσjyy^f(x^)

Что именно является параметром j индекса Mu?

Вам нужно найти базисных функций g j . (Вам все еще нужно определить число m ) Каждая базисная функция будет иметь µ j и a σ j (также неизвестно). Индекс j колеблется от 1 до m .mgjmμjσjj1m

Является ли вектором?μj

Да, это точка в . Другими словами, это точка где-то в вашем пространстве признаков, и для каждой из m базовых функций должно быть определено µ .R31μm

Я читал, что это определяет расположение основных функций. Так это не значит что-то?

базисной функции центрирована в ц J . Вам нужно будет решить, где находятся эти места. Так что нет, это не обязательно означает что-либо (но посмотрите, как это определить, ниже)jthμj

Теперь о сигме, которая «управляет пространственным масштабом». Что именно это?

легче понять, если мы обратимся к самим базисным функциям.σ

Это помогает думать о гауссовых радиальных базисных функциях в более низких размерностях, скажем, или R 2 . В R 1 радиальная базисная функция Гаусса является просто известной кривой колокола. Колокол, конечно, может быть узким или широким. Ширина определяется σ - чем больше σ , тем уже форма колокола. Другими словами, σ масштабирует ширину формы колокола. Таким образом, для σ = 1 у нас нет масштабирования. Для больших σ мы имеем существенное масштабирование.R1R2R1σσσσσ

Вы можете спросить, какова цель этого. Если вы думаете о колоколе, покрывающем некоторую часть пространства (линия в ) - узкий колокол будет покрывать только небольшую часть линии *. Точки x, расположенные ближе к центру колокола, будут иметь большее значение g j ( x ) . Точки, удаленные от центра, будут иметь меньшее значение g j ( x ) . Масштабирование приводит к выталкиванию точек дальше от центра - по мере того, как колокол сужается, точки будут располагаться дальше от центра - уменьшая значение g j ( x )R1xgj(x)gj(x)gj(x)

Каждая базовая функция преобразует входной вектор x в скалярное значение

xR31

exp(xμj222σj2)

xμjxμjσj

Я видел некоторые реализации, которые пробуют такие значения, как .1, .5, 2.5 для этого параметра. Как рассчитываются эти значения?

Это, конечно, один из интересных и сложных аспектов использования радиальных базисных функций Гаусса. если вы будете искать в Интернете, вы найдете много предложений относительно того, как определяются эти параметры. Я в общих чертах изложу одну возможность, основанную на кластеризации. Вы можете найти это и несколько других предложений онлайн.

mmgjμjσj

Martino
источник
μ
μ
σj
1

jy=β0+j=1:31βjϕj(x)jyβjϕj(x)yj=βϕj(x)jyjβϕj(x)ij

yixixiμiyijijjμijμjσ2yyσ2

O_Devinyak
источник
0

xR31μjR31e(xμj)Σj1(xμj)ΣjR31×31jjΣjj

Карел Мацек
источник