Отрицательное логарифмическое правдоподобие (например, 80) также известно как мульти-классовая кросс-энтропия (см .: Распознавание образов и машинное обучение, раздел 4.3.4), поскольку на самом деле это две разные интерпретации одной и той же формулы.
уравнение 57 - отрицательная логарифмическая вероятность распределения Бернулли, тогда как уравнение 80 - отрицательная логарифмическая вероятность многочленного распределения с одним наблюдением (мультиклассовая версия Бернулли).
Для задач двоичной классификации функция softmax выдает два значения (от 0 до 1 и от суммы до 1), чтобы дать прогноз каждого класса. В то время как сигмоидная функция выводит одно значение (от 0 до 1), чтобы дать прогноз одного класса (так что другой класс равен 1-p).
Таким образом, уравнение 80 не может быть непосредственно применено к выходу сигмоида, хотя это, по сути, те же потери, что и уравнение 57.
Также посмотрите этот ответ .
Ниже приводится простая иллюстрация связи между (сигмоид + двоичная кросс-энтропия) и (softmax + мультиклассовая кросс-энтропия) для задач двоичной классификации.
Скажем, мы берем в качестве точки разделения двух категорий, для сигмоидального вывода следует,0.5
σ(wx+b)=0.5
wx+b=0
что является границей решения в пространстве признаков.
Для вывода softmax следует
поэтому она остается той же моделью, хотя параметров в два раза больше.
ew1x+b1ew1x+b1+ew2x+b2=0.5
ew1x+b1=ew2x+b2
w1x+b1=w2x+b2
(w1−w2)x+(b1−b2)=0
Ниже приведены границы решения, полученные с использованием этих двух методов, которые практически идентичны.