В Tensorflow есть пример учебника по классификации CIFAR-10 . В учебном пособии средняя кросс-энтропийная потеря по партии сведена к минимуму.
def loss(logits, labels):
"""Add L2Loss to all the trainable variables.
Add summary for for "Loss" and "Loss/avg".
Args:
logits: Logits from inference().
labels: Labels from distorted_inputs or inputs(). 1-D tensor
of shape [batch_size]
Returns:
Loss tensor of type float.
"""
# Calculate the average cross entropy loss across the batch.
labels = tf.cast(labels, tf.int64)
cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(
logits, labels, name='cross_entropy_per_example')
cross_entropy_mean = tf.reduce_mean(cross_entropy, name='cross_entropy')
tf.add_to_collection('losses', cross_entropy_mean)
# The total loss is defined as the cross entropy loss plus all of the weight
# decay terms (L2 loss).
return tf.add_n(tf.get_collection('losses'), name='total_loss')
См. Cifar10.py , строка 267.
Почему это не минимизирует сумму по партии? Есть ли разница? Я не понимаю, как это повлияет на расчет backprop.
Ответы:
Как уже упоминалось в pkubik, обычно есть параметр регуляризации для параметров, который не зависит от входных данных, например, в тензорном потоке это похоже на
В этом случае усреднение по мини-партии помогает поддерживать фиксированное соотношение между
cross_entropy
потерями иregularizer
потерями, в то время как размер партии изменяется.Более того, скорость обучения также чувствительна к величине потерь (градиент), поэтому для нормализации результата при разных размерах партии выбор среднего значения представляется лучшим вариантом.
Обновить
Эта статья Facebook (точная, большая мини-партия SGD: обучение ImageNet за 1 час) показывает, что на самом деле масштабирование скорости обучения в соответствии с размером партии работает довольно хорошо:
по сути, это то же самое, что умножить градиент на k и сохранить скорость обучения без изменений, так что я думаю, что брать среднее значение не нужно.
источник
Я сосредоточусь на части:
В SGD мы обновляли бы веса, используя их градиент, умноженный на скорость обучения и мы ясно видим, что мы можем выбрать этот параметр таким образом, чтобы конечные обновления весов были равны. Первое правило обновления: и второе правило обновления (представьте, что ):λ W: = W+ λ1dLSUMdW λ1= λ2В W: = W+ λ1dLA VграммdW= W+ λ2ВdLSUMdW
Отличная находка dontloo может предположить, что использование суммы может быть немного более подходящим подходом. Чтобы оправдать среднее значение, которое кажется более популярным, я бы добавил, что использование суммы может вызвать некоторые проблемы с регуляризацией веса. Настройка коэффициента масштабирования для регуляризаторов для разных размеров пакетов может быть такой же раздражающей, как и настройка скорости обучения.
источник