В книге глубокого обучения Яна Гудфеллоу написано, что
Иногда функция потерь, о которой мы действительно заботимся (скажем, ошибка классификации), не может быть эффективно оптимизирована. Например, точное минимизация ожидаемых потерь 0-1 обычно трудно (экспоненциально во входном измерении) даже для линейного классификатора. В таких ситуациях обычно вместо этого оптимизируют функцию суррогатных потерь, которая действует как прокси, но имеет преимущества.
Почему потери 0-1 неразрешимы или как они экспоненциальны во входных измерениях?
источник
Ошибка классификации на самом деле иногда поддается устранению. Его можно оптимизировать эффективно, хотя и не совсем точно, используя метод Nelder-Mead, как показано в этой статье:
https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html
«Уменьшение размеров - это процесс преобразования многомерных векторов в низкоразмерное пространство. При распознавании образов часто желательно, чтобы эта задача выполнялась без значительной потери классификационной информации. Ошибка Байеса является идеальным критерием для этой цели; однако известно, что он чрезвычайно сложен для математической обработки. Следовательно, на практике используются субоптимальные критерии. Мы предлагаем альтернативный критерий, основанный на оценке ошибки Байеса, который, как мы надеемся, ближе к оптимальному критерию, чем критерии, используемые в настоящее время. . Алгоритм линейного уменьшения размера, основанный на этом критерии, задуман и реализован. Эксперименты демонстрируют его превосходную производительность по сравнению с обычными алгоритмами ».
Упомянутая здесь ошибка Байеса - это в основном проигрыш 0-1.
Эта работа была проделана в контексте сокращения линейных размеров. Я не знаю, насколько это было бы эффективно для обучения сетей глубокого обучения. Но дело в том, и ответ на вопрос: 0-1 потеря не всегда трудно поддается решению. Это может быть относительно хорошо оптимизировано, по крайней мере, для некоторых типов моделей.
источник