OP ошибочно полагает, что взаимосвязь между этими двумя функциями обусловлена количеством выборок (то есть одной и всех). Однако реальная разница заключается в том, как мы выбираем наши учебные ярлыки.
В случае бинарной классификации мы можем присвоить метки или .y=±1y=0,1
Как уже было сказано, логистическая функция является хорошим выбором, поскольку она имеет вид вероятности, т.е. и как . Если мы выберем метки мы можем назначить σ(z)σ(−z)=1−σ(z)σ(z)∈(0,1)z→±∞y=0,1
P(y=1|z)P(y=0|z)=σ(z)=11+e−z=1−σ(z)=11+ez
который можно записать более компактно как .P(y|z)=σ(z)y(1−σ(z))1−y
Проще максимизировать логарифмическую вероятность. Максимизация логарифмической вероятности аналогична минимизации отрицательной логарифмической вероятности. Для выборок , после натурального логарифма и некоторого упрощения, мы выясним:m{xi,yi}
l(z)=−log(∏imP(yi|zi))=−∑imlog(P(yi|zi))=∑im−yizi+log(1+ezi)
Полный вывод и дополнительная информация могут быть найдены на этом ноутбуке Jupyter . С другой стороны, мы могли бы вместо этого использовать метки . Тогда совершенно очевидно, что мы можем назначитьy=±1
P(y|z)=σ(yz).
Также очевидно, что . Следуя тем же шагам, что и раньше, мы минимизируем в этом случае функцию потерьP(y=0|z)=P(y=−1|z)=σ(−z)
L(z)=−log(∏jmP(yj|zj))=−∑jmlog(P(yj|zj))=∑jmlog(1+e−yzj)
Где последний шаг следует после того, как мы берем обратную величину, вызванную отрицательным знаком. Хотя мы не должны приравнивать эти две формы, учитывая, что в каждой форме принимает разные значения, тем не менее эти две формы эквивалентны:y
−yizi+log(1+ezi)≡log(1+e−yzj)
Случай тривиален, чтобы показать. Если , то с левой стороны и с правой стороны.yi=1yi≠1yi=0yi=−1
Хотя могут быть фундаментальные причины того, почему у нас есть две разные формы (см. Почему существуют две разные формулировки / обозначения логистических потерь? ), Одна из причин выбора первой заключается в практических соображениях. В первом случае мы можем использовать свойство для тривиального вычисления и , оба из которых необходимы для анализа сходимости (т. е. для определения выпуклости функции потерь путем вычисления гессиана ).∂σ(z)/∂z=σ(z)(1−σ(z))∇l(z)∇2l(z)
Я изучил функцию потерь для логистической регрессии следующим образом.
Логистическая регрессия выполняет двоичную классификацию, поэтому выходные данные меток являются двоичными, 0 или 1. Пусть будет вероятностью того, что двоичный выход равен 1, учитывая вектор входных признаков . Коэффициенты - это веса, которые алгоритм пытается выучить.P(y=1|x) y x w
Поскольку логистическая регрессия является двоичной, вероятность просто равна 1 минус термин выше.P(y=0|x)
Функция потерь представляет собой сумму (A) выходных данных умноженных на и (B) выходных данных умноженных на для одного примера обучения, суммированных более учебных примеров.J(w) y=1 P(y=1) y=0 P(y=0) m
где обозначает метку в ваших тренировочных данных. Если обучающий экземпляр имеет метку , то , оставляя левое слагаемое на месте, но делая правое слагаемое с равным . С другой стороны, если обучающий экземпляр имеет , то правое слагаемое с членом остается на месте, но левое слагаемое становится . Логарифмическая вероятность используется для простоты расчета.y(i) ith 1 y(i)=1 1−y(i) 0 y=0 1−y(i) 0
Если затем мы заменим и на более ранние выражения, то получим:P(y=1) P(y=0)
Вы можете прочитать больше об этой форме в этих лекциях Стэнфорда .
источник
Вместо Mean Squared Error мы используем функцию стоимости, называемую Cross-Entropy, также известную как Log Loss. Кросс-энтропийные потери можно разделить на две отдельные функции затрат: одну для y = 1 и одну для y = 0.
Когда мы собираем их вместе, мы имеем:
Умножение на и в вышеприведенном уравнении является хитрым трюком, который позволяет нам использовать одно и то же уравнение для решения обоих случаев и . Если , первая сторона отменяется. Если , вторая сторона отменяется. В обоих случаях мы выполняем только ту операцию, которая нам нужна.y (1−y) y=1 y=0 y=0 y=1
Если вы не хотите использовать
for
цикл, вы можете попробовать векторизованную форму уравнения вышеПолное объяснение можно посмотреть на листе машинного обучения .
источник