Как доказать, что радиальная базисная функция ядро? Насколько я понимаю, чтобы доказать это, мы должны доказать одно из следующего:
Для любого набора векторов матрица = неотрицательно.
Отображение может быть представлен , например , как = .
Любая помощь?
svm
kernel-trick
Лео
источник
источник
Ответы:
Дзен использовал метод 1. Вот метод 2: Отображениеx в сферически симметричное гауссово распределение с центром в x в гильбертовом пространстве L2 . Стандартное отклонение и постоянный коэффициент должны быть настроены для точной работы. Например, в одном измерении
Итак, используйте стандартное отклонение и масштабировать гауссово распределениечтобы получитьK(х,у)=⟨Ф(х),Ф(г)⟩. Это последнее изменение масштаба происходит потому, чтонормаL2нормального распределенияв общем случаене равна1.σ/2–√ k(x,y)=⟨Φ(x),Φ(y)⟩ L2 1
источник
Я буду использовать метод 1. Проверьте ответ Дугласа Заре для доказательства, используя метод 2.
Я докажу случай , когда являются вещественными числами, поэтому к ( х , у ) = ехр ( - ( х - у ) 2 / 2 σ 2 ) . Общий случай вытекает mutatis mutandis из того же аргумента и заслуживает рассмотрения.x,y k(x,y)=exp(−(x−y)2/2σ2)
Без ограничения общности предположим, что .σ2=1
Запишите , где h ( t ) = exp ( - t 2k(x,y)=h(x−y) - характеристическая функция случайной величиныZсраспределениемN(0,1).
Для действительных чисел и a 1 , … , a n имеем n ∑ j , k = 1x1,…,xn a1,…,an
что влечет за собой то, что k - положительная полуопределенная функция, то есть ядро.
Чтобы понять этот результат в большей общности, ознакомьтесь с теоремой Бохнера: http://en.wikipedia.org/wiki/Positive-definite_function
источник
Я добавлю третий метод, просто для разнообразия: сборка ядра из последовательности общих шагов, известных для создания ядер pd. Обозначим через область нижних ядер и φ отображения признаков.X φ
Proof: For eachm,n≥1 and every {(xi,ci)}mi=1⊆X×R we have that ∑mi=1ciκn(xi,xj)cj≥0 . Taking the limit as n→∞ gives the same property for κ .
Products: Ifκ1 and κ2 are pd kernels, so is g(x,y)=κ1(x,y)κ2(x,y) .
Proof: It follows immediately from the Schur product theorem, but Schölkopf and Smola (2002) give the following nice, elementary proof. Let
Powers: Ifκ is a pd kernel, so is κn(x,y):=κ(x,y)n for any positive integer n .
Proof: immediate from the "products" property.
Exponents: Ifκ is a pd kernel, so is eκ(x,y):=exp(κ(x,y)) .
Proof: We haveeκ(x,y)=limN→∞∑Nn=01n!κ(x,y)n ; use the "powers", "scalings", "sums", and "limits" properties.
Functions: Ifκ is a pd kernel and f:X→R , g(x,y):=f(x)κ(x,y)f(y) is as well.
Proof: Use the feature mapx↦f(x)φ(x) .
Now, note that
источник