Вот как бы я выразил потерю кросс-энтропии :
L (X, Y) = - 1NΣя = 1NY( я )пера ( х( я )) + ( 1 - у( я )) пер( 1 - а ( х( я )) )
Здесь - это набор входных примеров в наборе обучающих данных, а Y = { y ( 1 ) , … , y ( n ) } - соответствующий набор меток. для этих входных примеров. ( Х ) представляет собой выход нейронной сети с учетом входного х .Икс= { х( 1 ), … , Х( н )}Y= { у( 1 ), ... , у( н )}а ( х )Икс
Каждый из равен 0 или 1, и выходная активация a ( x ) обычно ограничивается открытым интервалом (0, 1) с использованием логистической сигмоиды . Например, для однослойной сети (что эквивалентно логистической регрессии) активация будет задана как ( x ) = 1Y( я )а ( х ) гдеW- весовая матрица, аb- вектор смещения. Для нескольких слоев, вы можете расширить функции активации к чемутокакв(х)=1
а ( х ) = 11 + е- Wх - б
Wб где
Vи
c- весовая матрица и смещение для первого слоя, а
z(x)а ( х ) = 11 + е- WZ( х ) - бZ( х ) = 11 + е- Vх - с
ВсZ( х ) - активация скрытого слоя в сети.
Я использовал верхний индекс (i) для обозначения примеров, потому что нашел его весьма эффективным в курсе машинного обучения Эндрю Нга; иногда люди выражают примеры в виде столбцов или строк в матрице, но идея остается той же.
Учебник на самом деле довольно явный:
Позже в том же учебном пособии Нильсен дает выражение для функции стоимости для многослойной, многонейронной сети (уравнение 63):
источник