Я видел два типа формулировок логистических потерь. Мы можем легко показать, что они идентичны, единственное отличие - это определение метки .
Формулировка / обозначения 1, :
где , где логистическая функция отображает действительное число в интервал 0,1.
Формулировка / обозначение 2, :
Выбор нотации подобен выбору языка, есть плюсы и минусы для использования того или иного. Каковы плюсы и минусы для этих двух обозначений?
Мои попытки ответить на этот вопрос состоят в том, что статистическому сообществу, похоже, нравится первая нотация, а сообществу информатики - вторая.
- Первые обозначения можно объяснить термином «вероятность», так как логистическая функция преобразует действительное число в интервал 0,1.
- И второе обозначение является более кратким, и его легче сравнивать с потерей шарнира или потерей 0-1.
Я прав? Любые другие идеи?
Ответы:
Короткая версия
Длинная версия
Преимущество математического моделирования в том, что оно гибкое. Это действительно эквивалентные функции потерь, но они происходят из очень разных базовых моделей данных.
Формула 1
Первое обозначение получено из вероятностной модели Бернулли для , которая обычно определяется в . В этой модели результат / метка / класс / прогноз представлен случайной величиной которая следует за распределением . Поэтому его вероятность:y {0,1} Y Bernoulli(p)
для . Использование 0 и 1 в качестве значений индикатора позволяет нам уменьшить кусочную функцию в крайнем правом положении до краткого выражения.p∈[0,1]
Как вы указали, вы можете затем связать с матрицей входных данных , указав . Отсюда прямые алгебраические манипуляции показывают, что совпадает с первым в вашем вопросе (подсказка: ). Таким образом, минимизация потерь логарифма за эквивалентна оценке максимального правдоподобия модели Бернулли.Y x logitp=βTx logL(p;y) L(y,βTx) (y−1)=−(1−y) {0,1}
Эта формулировка также является частным случаем обобщенной линейной модели , которая формулируется как для обратимой, дифференцируемой функции и распределения в экспоненциальная семья .Y∼D(θ), g(Y)=βTx g D
Формула 2
На самом деле .. Я не знаком с Формулой 2. Однако определение на является стандартным в формулировке машины опорных векторов . Подгонка SVM соответствует максимизацииy {−1,1}
Это лагранжева форма ограниченной задачи оптимизации. Это также пример регуляризованной задачи оптимизации с целевой функцией для некоторой функции потерь и скалярного гиперпараметра который управляет величиной регуляризации (также называется «усадка») применяется к . Потеря шарнира - это только одна из нескольких возможностей , которая также включает в себя второй в вашем вопросе.
источник
Я думаю, у @ssdecontrol был очень хороший ответ. Я просто хочу добавить несколько комментариев к формуле 2 для моего собственного вопроса.
Причина, по которой людям нравится эта формулировка, заключается в том, что она очень лаконична и устраняет «детали интерпретации вероятности».
Сложной нотацией является , заметьте, - это двоичная переменная, но здесь является действительным числом. По сравнению с формулировкой 1, нам нужно два дополнительных шага, чтобы сделать это для дискретной метки, шаг 1. Функция SigMod, шаг 2. применить порог 0,5.y^ y y^
Но без этих подробностей мы можем легко сравнить их с другими классификационными потерями, такими как потеря 01 или потеря шарнира.
Здесь мы строим три функции потерь, ось x - это а ось y - это значение потерь. Обратите внимание, что во всех приведенных выше формулах является действительным числом, и это число может быть линейной формы или других форм. Такое обозначение скрывает детали вероятности.y⋅y^ y^ βTx
источник