Во время обучения простого нейронного бинарного классификатора я получаю высокую величину потерь, используя кросс-энтропию. Несмотря на это, значение точности на проверочном наборе остается достаточно хорошим. Это имеет какое-то значение? Нет строгой корреляции между потерей и точностью?
У меня на тренировке и проверке есть следующие значения: 0,4011 - соотв: 0,8224 - val_loss: 0,4577 - val_acc: 0,7826 . Это моя первая попытка внедрить NN, и я только что подошел к машинному обучению, поэтому не могу правильно оценить эти результаты.
neural-networks
accuracy
user146655
источник
источник
Ответы:
Я столкнулся с подобной проблемой.
Я обучил свой двоичный классификатор нейронной сети перекрестной потере энтропии. Здесь результат перекрестной энтропии как функции эпохи. Красный - для тренировочного набора, а синий - для тестового набора.
Показав точность, я с удивлением получил лучшую точность для эпохи 1000 по сравнению с эпохой 50 даже для тестового набора!
Чтобы понять взаимосвязь между кросс-энтропией и точностью, я углубился в более простую модель - логистическую регрессию (с одним входом и одним выходом). Далее я просто проиллюстрирую эту связь в 3 особых случаях.
В общем, параметр, где перекрестная энтропия минимальна, не является параметром, где точность максимальна. Тем не менее, мы можем ожидать некоторую связь между кросс-энтропией и точностью.
[Далее я предполагаю, что вы знаете, что такое кросс-энтропия, почему мы используем ее вместо точности для обучения модели и т. Д. Если нет, сначала прочтите это: Как интерпретировать оценку кросс-энтропии? ]
Иллюстрация 1 Это должно показать, что параметр, где перекрестная энтропия минимальна, не является параметром, где точность максимальна, и понять, почему.
Вот мой пример данных. У меня есть 5 баллов, и, например, ввод -1 привел к выводу 0.
Перекрестная энтропия. После минимизации перекрестной энтропии я получаю точность 0,6. Разрез между 0 и 1 выполняется при х = 0,52. Для 5 значений я получаю соответственно перекрестную энтропию: 0,14, 0,30, 1,07, 0,97, 0,43.
Точность. После максимизации точности на сетке я получаю много разных параметров, приводящих к 0,8. Это можно показать непосредственно, выбрав срез x = -0.1. Ну, вы также можете выбрать x = 0,95, чтобы сократить наборы.
В первом случае перекрестная энтропия велика. Действительно, четвертая точка находится далеко от разреза, поэтому имеет большую перекрестную энтропию. А именно, я получаю соответственно перекрестную энтропию: 0,01, 0,31, 0,47, 5,01, 0,004.
Во втором случае кросс-энтропия тоже велика. В этом случае третья точка находится далеко от разреза, поэтому имеет большую перекрестную энтропию. Я получаю соответственно перекрестную энтропию: 5e-5, 2e-3, 4,81, 0,6, 0,6.
Я думаю, что если модель имеет достаточную емкость (достаточно, чтобы вместить истинную модель), и если данные большие (т.е. размер выборки уходит в бесконечность), то перекрестная энтропия может быть минимальной, когда точность максимальна, по крайней мере, для логистической модели. , У меня нет доказательств этого, если у кого-то есть ссылка, пожалуйста, поделитесь.
Библиография: Тема, связывающая перекрестную энтропию и точность, интересна и сложна, но я не могу найти статьи, связанные с этим ... Изучать точность интересно, потому что, несмотря на неправильное правило подсчета очков, каждый может понять его значение.
Примечание: во- первых, я хотел бы найти ответ на этом веб-сайте, посты, касающиеся взаимосвязи между точностью и кросс-энтропией, многочисленны, но с несколькими ответами, см .: Сопоставимые кросс-энтропии по трассировке и тестированию приводят к очень разным погрешностям ; Потеря валидации снижается, а точность валидации ухудшается ; Сомнение в категориальной функции кросс-энтропийной потери ; Интерпретация потери журнала в процентах ...
источник
Ахстат дает очень хорошие иллюстрации.
Вдохновленный этими иллюстрациями, я делаю вывод о 2 возможных причинах. 1. Модель слишком проста, чтобы извлечь необходимые функции для прогнозирования. В вашей иллюстрации 1 это многократная проблема, и для получения 100% точности требуется еще один слой. 2. В данных слишком много шумных меток (сравните рисунки 1 и 3).
Что касается иллюстрации 2, это объясняет, почему мы не можем добавить слишком много регуляризации L1 / L2 в модель.
источник