Однослойная NeuralNetwork с активацией ReLU, равной SVM?

10

Предположим, у меня есть простая однослойная нейронная сеть с n входами и одним выходом (задача двоичной классификации). Если я установлю функцию активации в выходном узле как сигмовидную функцию, то результатом будет классификатор логистической регрессии.

В этом же сценарии, если я изменю выходную активацию на ReLU (выпрямленная линейная единица), то будет ли результирующая структура такой же или похожей на SVM?

Если нет, то почему?

ОБЪЯВЛЕНИЕ
источник
Есть ли у вас гипотеза о том, почему это может иметь место? причина, по которой один персептрон = логистика именно из-за активации - они по сути математически (хотя, возможно, и обучаются по-разному) - это одна и та же модель - линейные веса + сигмоида, примененная к умножению матриц. SVM работают совершенно по-другому - они ищут лучшую линию для разделения данных - они более геометрически, чем "веские" / "матрикс". Для меня нет ничего о ReLU, которые заставили бы меня думать = ах, они такие же, как у SVM. (Логистический и линейный SVM имеют тенденцию работать очень похоже, хотя)
metjush
цель максимального маржи svm и функция активации relu выглядят одинаково. Отсюда и вопрос.
AD
«SVM работают совершенно по-другому - они ищут лучшую линию для разделения данных - они более геометрически, чем« весомые »/« матриксные ». Это немного волнисто - ВСЕ линейные классификаторы ищут лучшую линию для разделения данных, включая логистическую регрессию и персептрон.
н.э.

Ответы:

11

Езнак равномaИкс(1-TY,0)

Чтобы потери в сети были в той же форме, что и SVM, мы можем просто удалить любые нелинейные функции активации с выходного уровня и использовать потери в петлях для обратного распространения.

Езнак равноLN(1+еИксп(-TY))

Таким образом, с точки зрения функций потерь, SVM и логистическая регрессия довольно близки, хотя SVM используют совсем другой алгоритм для обучения и вывода, основанный на опорных векторах.

Хорошее обсуждение взаимосвязи SVM и логистической регрессии в разделе 7.1.2 книги « Распознавание образов и машинное обучение» .

введите описание изображения здесь

dontloo
источник
спасибо за указание на книгу. Таким образом, я чувствую, что помимо функций активации, реальное различие заключается в используемых алгоритмах оптимизации. Для LR мы можем использовать простой неограниченный градиентный спуск, в то время как в SVM мы обычно решаем ограниченную оптимизацию.
AD