Объяснение функции Йоло Лосс

16

Я пытаюсь понять функцию потери Yolo v2:

\begin{aligned} λ_{c o o r d} \sum_{i = 0}^{S^{2}} \sum_{j = 0}^{B} 1_{i j}^{o b j} [(x_{i} - {\hat{x}}_{i})^{2} + (y_{i} - {\hat{y}}_{i})^{2}] \\ + λ_{c o o r d} \sum_{i = 0}^{S^{2}} \sum_{j = 0}^{B} 1_{i j}^{o b j} [(\sqrt{w_{i}} - \sqrt{{\hat{w}}_{i}})^{2} + (\sqrt{h_{i}} - \sqrt{{\hat{h}}_{i}})^{2}] \\ + \sum_{i = 0}^{S^{2}} \sum_{j = 0}^{B} 1_{i j}^{o b j} (C_{i} - {\hat{C}}_{i})^{2} + λ_{n o o b j} \sum_{i = 0}^{S^{2}} \sum_{j = 0}^{B} 1_{i j}^{n o o b j} (C_{i} - {\hat{C}}_{i})^{2} \\ + \sum_{i = 0}^{S^{2}} 1_{i}^{o b j} \sum_{c \in c l a s s e s} (p_{i} (c) - {\hat{p}}_{i} (c))^{2} \end{aligned}

$\begin{align} &\lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(x_i-\hat{x}_i)^2 + (y_i-\hat{y}_i)^2 ] \\&+ \lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2 +(\sqrt{h_i}-\sqrt{\hat{h}_i})^2 ]\\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i - \hat{C}_i)^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{1}_{i}^{obj}\sum_{c \in classes}(p_i(c) - \hat{p}_i(c))^2 \\ \end{align}$

Если кто-то может детализировать функцию.

neural-networks loss-functions object-detection yolo Камель БУЯКУБ
источник

5

никто не может помочь вам без контекста ... по крайней мере, скажите нам, из какой это бумаги.

bdeonovic

1

«Я не понимаю» и «подробно описать функцию» слишком широки. Пожалуйста, попробуйте определить конкретные вопросы. Обратите внимание, что уже существует множество вопросов, касающихся Йоло , некоторые из которых могут предоставить вам хотя бы часть того, что вы ищете

Glen_b -Reinstate Monica

1

Я бы добавил свой ответ, если бы вы указали на то, что не ясно из этого превосходного объяснения: medium.com/@jonathan_hui/…

Аксакал,

1

В этом блоге здесь есть подробное графическое объяснение yolo и yolov2. Это действительно отвечает на вопрос о функции потерь. Ifind это очень полезно для начинающих и более продвинутых пользователей.

MBoaretto

18

Объяснение различных терминов:

3 константы являются просто константами, чтобы учесть еще один аспект функции потерь. В статье является высшим, чтобы иметь большее значение в первом члене $\lambda$ $\lambda_{coord}$
Предсказание YOLO представляет собой вектор : предсказания bbox для каждой ячейки сетки и предсказание класса для каждой ячейки сетки (где - количество классов). 5 выходов bbox блока j ячейки i являются координатами центра bbox , высоты , ширины и индекса достоверности $S*S*(B*5+C)$ $B$ $C$ $C$ $x_{ij}$ $y_{ij}$ $h_{ij}$ $w_{ij}$ $C_{ij}$
Я полагаю, что значения со шляпой являются реальными значениями, прочитанными на этикетке, а значения без шляпы - предсказанными. Так что реальное значение от метки для доверительного балла для каждого BBox ? Это пересечение объединения предсказанного ограничивающего прямоугольника с ярлыком. $\hat{C}_{ij}$
равнокогда в ячейкеесть объект,идругом месте $\mathbb{1}_{i}^{obj}$ $1$ $i$ $0$
"обозначает, чтой предиктор ограничивающего прямоугольника в ячейкеотвечает за это предсказание". Другими словами, он равенесли в ячейкеесть объект,и достоверностьх предикторов этой ячейки является самой высокой среди всех предикторов этой ячейки. - почти то же самое, за исключением того, что оно имеет значение 1, когда в ячейкенет объектов NO $\mathbb{1}_{ij}^{obj}$ $j$ $i$ $1$ $i$ $j$ $\mathbb{1}_{ij}^{noobj}$ $i$

Обратите внимание, что я использовал два индекса и для каждого предсказания bbox, в статье это не так, потому что всегда есть коэффициент или поэтому нет двусмысленной интерпретации: выбран тот , что соответствует самому высокому доверительному счету в этой ячейке. $i$ $j$ $\mathbb{1}_{ij}^{obj}$ $\mathbb{1}_{ij}^{noobj}$ $j$

Более общее объяснение каждого термина суммы:

этот термин наказывают за плохую локализацию центра клеток
этот термин штрафует ограничивающий прямоугольник с неточной высотой и шириной. Квадратный корень присутствует так, что ошибки в маленьких ограничивающих прямоугольниках более штрафуют, чем ошибки в больших ограничивающих прямоугольниках
этот термин пытается сделать показатель доверия равным IOU между объектом и прогнозом, когда есть один объект
Пытается сделать показатель достоверности близким к когда в ячейке нет объекта $0$
Это простая классификация потерь (не объясняется в статье)

user7573566
источник

1

Второй пункт должен быть B*(5+C)? По крайней мере, это так для YOLO v3.

sachinruk

@sachinruk это отражает изменения в модели между оригинальным YOLO и v2 и v3.

Дэвид Рафаэли

12

\begin{aligned} λ_{c o o r d} \sum_{i = 0}^{S^{2}} \sum_{j = 0}^{B} 1_{i j}^{o b j} [(x_{i} - {\hat{x}}_{i})^{2} + (y_{i} - {\hat{y}}_{i})^{2}] \\ + λ_{c o o r d} \sum_{i = 0}^{S^{2}} \sum_{j = 0}^{B} 1_{i j}^{o b j} [(\sqrt{w_{i}} - \sqrt{{\hat{w}}_{i}})^{2} + (\sqrt{h_{i}} - \sqrt{{\hat{h}}_{i}})^{2}] \\ + \sum_{i = 0}^{S^{2}} \sum_{j = 0}^{B} 1_{i j}^{o b j} (C_{i} - {\hat{C}}_{i})^{2} + λ_{n o o b j} \sum_{i = 0}^{S^{2}} \sum_{j = 0}^{B} 1_{i j}^{n o o b j} (C_{i} - {\hat{C}}_{i})^{2} \\ + \sum_{i = 0}^{S^{2}} 1_{i}^{o b j} \sum_{c \in c l a s s e s} (p_{i} (c) - {\hat{p}}_{i} (c))^{2} \end{aligned}

$\begin{align} &\lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(x_i-\hat{x}_i)^2 + (y_i-\hat{y}_i)^2 ] \\&+ \lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2 +(\sqrt{h_i}-\sqrt{\hat{h}_i})^2 ]\\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i - \hat{C}_i)^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{1}_{i}^{obj}\sum_{c \in classes}(p_i(c) - \hat{p}_i(c))^2 \\ \end{align}$

Разве функция YOLOv2 Loss не выглядит страшно? Это не на самом деле! Это одна из самых смелых, самых умных функций потерь.

Давайте сначала посмотрим, что на самом деле предсказывает сеть.

Если вспомнить, YOLOv2 предсказывает обнаружения на карте объектов 13x13, так что в общей сложности у нас есть 169 карт / ячеек.

У нас есть 5 якорных ящиков. Для каждой коробки якоря нам нужны предметность-показатель достоверности (был ли найден какой - либо объект?), 4 координаты ( $t_x, t_y, t_w,$ и $t_h$ ) для коробки якоря, и 20 лучших классов. Грубо это можно рассматривать как 20 координат, 5 доверительных оценок и 100 вероятностей классов для всех 5 предсказаний якорных ячеек, вместе взятых.

Нам есть о чем беспокоиться:

$x_i, y_i$ , где находится центр тяжести якорного ящика
$w_i, h_i$ - ширина и высота якорного ящика
$C_i$ , который являетсяОбъектностью, то есть оценкой достоверности того, существует объект или нет, и
$p_i(c)$ , которая является классификационной потерей.
$𝟙_{i}^{obj}$ $𝟙_{i}^{noobj}$ $𝟙_{i}^{obj}$ $𝟙_{i}^{noobj}$ $𝟙_{i}^{obj}$ , Где оно равно 1 , если не было нет объекта в ячейке и 0 , если не было.
Нам нужно сделать это для всех 169 ячеек, и
Нам нужно сделать это 5 раз (для каждого якорного ящика).

Все потери являются среднеквадратичными ошибками, кроме классификационных потерь, в которых используется функция кросс-энтропии .

Теперь давайте разберем код на изображении.

Нам нужно рассчитать потери для каждого якорного ящика (всего 5)
- $\sum_{j=0}^B$ представляет эту часть, где В = 4 (5 - 1, так как индекс начинается с 0)
Нам нужно сделать это для каждой из 13x13 ячеек, где S = 12 (так как мы начинаем индекс с 0)
- $\sum_{i=0}^{S^2}$ представляет эту часть.
$𝟙_{ij}^{obj}$ $i$
$𝟙_{ij}^{noobj}$ $i$
$𝟙_{i}^{obj}$
λs постоянные. λ является наибольшим для координат, чтобы больше сосредоточиться на обнаружении (помните, что в YOLOv2 мы сначала обучаем его распознаванию, а затем обнаружению, штрафование за распознавание - пустая трата времени, скорее мы сосредоточены на получении лучших ограничительных рамок!)
$w_i, h_i$

вар1 | вар2 | (var1 - var2) ^ 2 | (sqrtvar1 - sqrtvar2) ^ 2

0,0300 | 0,020 | 9.99e-05 | 0,001

0,0330 | 0,022 | 0,00012 | 0,0011

0.0693 | 0,046 | 0.000533 | 0,00233

0,2148 | 0,143 | 0,00512 | 0,00723

0,3030 | 0,202 | 0,01 | 0,01

0,8808 | 0,587 | 0.0862 | 0,0296

4.4920 | 2.994 | 2,2421 | 0,1512

Не так страшно, верно!

Читайте ЗДЕСЬ для получения дополнительной информации.

RShravan
источник

1

Должны ли i и j in \ sum начинаться с 1 вместо 0?

Веббертигер

1

Да, это правильно, webertiger, соответственно обновили ответ. Благодарность!

RShravan

1_{i j}^{o b j}

$\mathbb{1}_{ij}^{obj}$

1

S^{2} - 1

$S^2 -1$

3

@RShravan, вы говорите: «Все потери являются среднеквадратичными ошибками, за исключением потери классификации, которая использует функцию кросс-энтропии». Могли бы вы объяснить? В этом уравнении это выглядит как MSE. Заранее спасибо

Джулиан

3

Ваша функция потерь для YOLO v1, а не для YOLO v2. Меня также смутило различие в двух функциях потери, и похоже, что многие люди: https://groups.google.com/forum/#!topic/darknet/TJ4dN9R4iJk

Статья YOLOv2 объясняет отличие в архитектуре от YOLOv1 следующим образом:

Мы удаляем полностью связанные слои из YOLO (v1) и используем якорные блоки для прогнозирования ограничивающих прямоугольников ... При переходе к якорным боксам мы также отделяем механизм прогнозирования класса от пространственного расположения и вместо этого прогнозируем класс и объектность для каждого якорного ящика.

$p_i(c)$ $i$ $c$ $j$

Я пытаюсь угадать функцию потерь в YOLOv2 и обсуждаю ее здесь: https://fairyonice.github.io/Part_4_Object_Detection_with_Yolo_using_VOC_2012_data_loss.html

FairyOnIce
источник

1

Вот моя учебная записка

Функция потерь: ошибка в квадрате суммы

$λ_{c o o r d} = 5$ $\lambda_{coord} = 5$ $\lambda_{noobj}$
Только один ограничивающий прямоугольник должен отвечать за каждый объект. Мы назначаем одного предиктора, который будет отвечать за прогнозирование объекта, на основе которого прогноз имеет наивысшую текущую долговую расписку с истинностью основания.

а. Потеря от координаты ограниченного блока (x, y) Обратите внимание, что потеря происходит из одного ограничивающего прямоугольника из одной ячейки сетки. Даже если объект не в ячейке сетки, как наземная истина.

{\begin{cases} λ_{c o o r d} \sum_{i = 0}^{S^{2}} [(x_{i} - {\hat{x}}_{i})^{2} + (y_{i} - \hat{y_{i}})^{2}] & responsible bounding box \\ 0 & other \end{cases}

$\begin{cases} \lambda_{coord} \sum^{S^2}_{i=0} [(x_i - \hat{x}_i)^2 + (y_i - \hat{y_i})^2] &\text{responsible bounding box} \\ 0 &\text{ other} \\ \end {cases}$

б. Потери от ширины w и высоты h. Обратите внимание, что потеря происходит из-за одного ограничивающего прямоугольника из одной ячейки сетки, даже если объект не находится в ячейке сетки как наземная правда.

{\begin{cases} λ_{c o o r d} \sum_{i = 0}^{S^{2}} [(\sqrt{w_{i}} - \sqrt{{\hat{w}}_{i}})^{2} + (\sqrt{h_{i}} - \sqrt{{\hat{h}}_{i}})^{2}] & responsible bounding box \\ 0 & other \end{cases}

$\begin {cases} \lambda_{coord} \sum^{S^2}_{i=0} [(\sqrt{w_i} - \sqrt{\hat{w}_i})^2 + (\sqrt{h_i} - \sqrt{\hat{h}_i})^2] &\text{responsible bounding box} \\ 0 &\text{ other} \\ \end {cases}$

с. Утрата от уверенности в каждой связанной коробке. Не то, чтобы потеря исходила от одного ограничивающего прямоугольника от одной ячейки сетки, даже если объект не находится в ячейке сетки как наземная истина.

{\begin{cases} \sum_{i = 0}^{S^{2}} (C_{i} - {\hat{C}}_{i})^{2} & obj in grid cell and responsible bounding box \\ λ_{n o o b j} \sum_{i = 0}^{S^{2}} (C_{i} - {\hat{C}}_{i})^{2} & obj not in grid cell and responsible bounding box \\ 0 & other \end{cases}

$\begin {cases} \sum^{S^2}_{i=0}(C_i - \hat{C}_i)^2 &\text{obj in grid cell and responsible bounding box} \\ \lambda_{noobj} \sum^{S^2}_{i=0}(C_i - \hat{C}_i)^2 &\text{obj not in grid cell and responsible bounding box} \\ 0 &\text{other} \end {cases}$

{\begin{cases} \sum_{i = 0}^{S^{2}} \sum_{c \in c l a s s e s} (p_{i} (c) - {\hat{p}}_{i} (c))^{2} & obj in grid cell \\ 0 & other \end{cases}

$\begin {cases} \sum^{S^2}_{i=0} \sum_{c \in classes} (p_i(c) - \hat{p}_i(c))^2 &\text{obj in grid cell}\\ 0 &\text{other} \\ \end {cases}$

Функция потерь только штрафует классификацию, если в ячейке сетки присутствует объект obj. Он также штрафует координаты ограничивающего прямоугольника, если этот прямоугольник отвечает за наземный прямоугольник (самый высокий IOU)

Рой
источник

Вопрос о 'C', в статье, доверие - это значение объекта «объект или нет», умноженное на IOU; это только для времени тестирования или для функции стоимости обучения? Я думал, что мы просто вычитаем значение C из выходных данных и меток (так же, как мы делали со значениями сетки), но это неправильно?

Мундра

0

Формула потери, которую вы написали, относится к исходной потере бумаги YOLO , а не к потере v2 или v3.

Есть несколько основных различий между версиями. Я предлагаю прочитать документы или проверить реализации кода. Документы: v2 , v3 .

Некоторые основные различия, которые я заметил:

Вероятность класса рассчитывается для каждого ограничивающего прямоугольника (следовательно, теперь вывод равен S ∗ S ∗ B * (5 + C) вместо S S (B * 5 + C))
Координаты ограничивающего прямоугольника теперь имеют другое представление
В v3 они используют 3 коробки по 3 разным «масштабам»

Вы можете попытаться вникнуть в мельчайшие подробности потери, либо взглянув на реализацию python / keras v2 , v3 (ищите функцию yolo_loss) или непосредственно на реализацию c v3 (ищите delta_yolo_box и delta_yolo_class).

Давид Рафаэли
источник

Объяснение функции Йоло Лосс

Ответы: