В чем разница между выполнением линейной регрессии с помощью гауссовой радиальной базисной функции (RBF) и выполнением линейной регрессии с использованием гауссовского ядра?
regression
normal-distribution
kernel-trick
user35965
источник
источник
Ответы:
Единственная реальная разница заключается в применяемой регуляризации. Регуляризованная сеть RBF обычно использует штраф, основанный на квадрате нормы весов. Для версии ядра штраф обычно накладывается на квадратичную норму весов линейной модели, неявно построенной в пространстве признаков, индуцированном ядром. Ключевое практическое отличие, которое это делает, состоит в том, что штраф за сеть RBF зависит от центров сети RBF (и, следовательно, от выборки используемых данных), тогда как для ядра RBF пространство индуцированных признаков является одинаковым независимо от выборки данные, поэтому штраф является штрафом за функцию модели, а не за ее параметризацию .
Другими словами, для обеих моделей мы имеем
Для сетевого подхода RBF критерием обучения является
Для метода ядра RBF у нас естьК ( х⃗ , х⃗ ') = ϕ ( x⃗ ) ⋅ ϕ ( x⃗ ') и вес⃗ = ∑ℓя = 1αяϕ ( x⃗ я) . Это означает, что квадрат нормы штрафа для весов модели в индуцированном пространстве признаков, вес⃗ можно записать в терминах двойственных параметров, α⃗ как
где - это матрица попарных оценок ядра для всех шаблонов обучения. Тогда критерий обученияК
Единственное различие между этими двумя моделями заключается в в члене регуляризации.К
Ключевое теоретическое преимущество подхода на основе ядра состоит в том, что он позволяет интерпретировать нелинейную модель как линейную модель после фиксированного нелинейного преобразования, которое не зависит от выборки данных. Таким образом, любая статистическая теория обучения, существующая для линейных моделей, автоматически переходит к нелинейной версии. Тем не менее, все это ломается, как только вы пытаетесь настроить параметры ядра, и в этот момент мы возвращаемся к той же точке теоретически, как и в случае с нейронными сетями RBF (и MLP). Так что теоретическое преимущество, возможно, не так велико, как хотелось бы.
Это может реально повлиять на производительность? Наверное, не очень. Теоремы «без бесплатного обеда» предполагают, что нет никакого априорного превосходства какого-либо алгоритма над всеми другими, и различие в регуляризации довольно тонкое, поэтому, если сомневаетесь, попробуйте оба варианта и выберите лучший в соответствии, например, с перекрестной проверкой.
источник