Я только начинаю с машинного обучения, и до сих пор я имел дело с линейной регрессией по одной переменной.
Я узнал, что существует гипотеза:
Чтобы найти хорошие значения для параметров и мы хотим минимизировать разницу между вычисленным результатом и фактическим результатом наших тестовых данных. Поэтому мы вычитаемθ 1
для всех от до . Следовательно, мы вычисляем сумму по этой разности, а затем вычисляем среднее значение, умножая сумму на . Все идет нормально. Это приведет к:1 м 1
Но это не то, что было предложено. Вместо этого курс предлагает взять квадратное значение разности и умножить на . Итак, формула имеет вид:
Почему это? Почему мы используем здесь функцию квадрата и почему мы умножаем на вместо ? 1
machine-learning
linear-regression
loss-function
Голо Роден
источник
источник
Ответы:
Ваша функция потерь не будет работать, потому что она стимулирует установку любого конечного значения и в .θ1 θ0 −∞
Назовем остаточного для ,r(x,y)=1m∑mi=1hθ(x(i))−y hh
Ваша цель - сделать как можно ближе к нулю, а не просто минимизировать его . Высокое отрицательное значение так же плохо, как и высокое положительное значение.r
РЕДАКТИРОВАТЬ: Вы можете противостоять этому путем искусственного ограничения пространства параметров (например, вы хотите ). В этом случае оптимальные параметры будут лежать в определенных точках на границе пространства параметров. См. Https://math.stackexchange.com/q/896388/12467 . Это не то, что вы хотите.Θ |θ0|<10
Почему мы используем квадратную потерю
Квадратная ошибка к совпадению и . Он минимизируется при , если это возможно, и всегда равен , потому что это квадрат действительного числа .h(x) y u=v ≥0 u−v
Итак, почему потеря в квадрате лучше, чем эти? Это глубокий вопрос, связанный со связью между частыми и байесовскими выводами. Короче говоря, квадратичная ошибка относится к гауссовскому шуму .
Если ваши данные не соответствуют точно всем точкам, т. не равен нулю для какой-либо точки, независимо от того, какую вы выбираете (как это всегда будет происходить на практике), это может быть вызвано шумом . В любой сложной системе будет много небольших независимых причин для разницы между вашей моделью и реальностью : ошибка измерения, факторы окружающей среды и т. Д. Согласно центральной предельной теореме (CLT), общий шум будет распределяться нормально , то есть в соответствии с Гауссово распределение . Мы хотим выбрать наиболее подходящуюh(x)−y θ h y θ принимая во внимание это распределение шума. Предположим, что , часть которую ваша модель не может объяснить, следует распределению Гаусса . Мы используем заглавные буквы, потому что сейчас мы говорим о случайных переменных.R=h(X)−Y y N(μ,σ)
Распределение Гаусса имеет два параметра: среднее и дисперсия . Смотрите здесь, чтобы лучше понять эти термины.μ=E[R]=1m∑ihθ(X(i))−Y(i)) σ2=E[R2]=1m∑i(hθ(X(i))−Y(i)))2
Рассмотрим , это систематическая ошибка наших измерений. Используйте чтобы исправить систематическую ошибку, чтобы (упражнение для читателя). Больше здесь делать нечего.μ h′(x)=h(x)−μ μ′=E[R′]=0
Чтобы одновременно принять во внимание как среднее значение, так и дисперсию, мы включаем в наш классификатор термин смещения (для обработки систематической ошибки ), а затем минимизируем квадратные потери.μ
Последующие вопросы:
Потеря наименьших квадратов = ошибка Гаусса. Соответствует ли любая другая функция потерь некоторому распределению шума? Да. Например, потеря (минимизация абсолютного значения вместо квадратичной ошибки) соответствует распределению Лапласа (посмотрите на формулу для PDF в информационном блоке - это просто гауссов с вместо ). Популярной потерей для вероятностных распределений является KL-дивергенция . -Гауссово распределение очень хорошо мотивировано из-за центральной предельной теоремыℓ1 |x−μ| (x−μ)2 , о котором мы говорили ранее. Когда распределение Лапласа является правильной моделью шума? Есть некоторые обстоятельства, когда это происходит естественным образом, но чаще всего это регуляризатор для обеспечения разреженности : потеря является наименее выпуклой среди всех выпуклых потерь.ℓ1
Существуют ли ситуации, когда мы минимизируем среднее значение и дисперсию? Да. Посмотрите на компромисс Bias-Variance . Здесь мы рассмотрим набор классификаторов и спросим, какой из них является лучшим. Если мы спросим, какой набор классификаторов является лучшим для проблемы, минимизация смещения и дисперсии становится важной. Оказывается, между ними всегда есть компромисс, и мы используем регуляризацию для достижения компромисса.hθ∈H
Относительно термина12
1/2 не имеет значения, и фактически, также как и - они оба постоянны. Оптимальное значение останется неизменным в обоих случаях.m θ
Выражение для градиента становится симпатичнее с помощью , потому что 2 из квадратного члена аннулируется.12
полезен , если вы решить эту проблему с помощью градиентного спуска. Тогда ваш градиент становится средним из слагаемых, а не суммы, поэтому его масштаб не изменяется при добавлении дополнительных точек данных.m m
nan
илиinf
, Чтобы избежать этого, просто нормализуйте по количеству точек данных.Эти эстетические решения используются здесь для поддержания согласованности с будущими уравнениями, в которые вы добавите термины регуляризации . Если вы включите , параметр регуляризации не будет зависеть от размера набора данных и будет более интерпретируемым при решении проблем.m λ m
источник
Коэффициент 1/2 только для удобства; это делает производную, которая на самом деле является оптимизируемой функцией, выглядит лучше. 1 / м является более фундаментальным; это говорит о том, что нас интересует среднеквадратическая ошибка. Это позволяет делать справедливые сравнения при изменении размера выборки и предотвращает переполнение. Так называемые «стохастические» оптимизаторы используют подмножество набора данных (m '<m). Когда вы вводите регуляризатор (аддитивный термин к целевой функции), использование коэффициента 1 / m позволяет использовать один и тот же коэффициент для регуляризатора независимо от размера выборки.
Что касается вопроса о том, почему квадрат, а не просто различие: разве вы не хотите, чтобы недооценки наказывались так же, как переоценки? Квадрат исключает влияние знака ошибки. Принятие абсолютного значения (норма L1) также имеет значение, но его производная не определена в источнике, поэтому она требует большей сложности для использования. Норма L1 имеет свое применение, поэтому имейте это в виду и, возможно, спросите учителя, собирается ли он ее охватить.
источник
Мера ошибки в функции потерь - это «статистическое расстояние»; в отличие от популярного и предварительного понимания расстояния между двумя векторами в евклидовом пространстве. С помощью «статистического расстояния» мы пытаемся отобразить «несходство» между оценочной моделью и оптимальной моделью в евклидовом пространстве.
Не существует строгого правила в отношении формулировки этого «статистического расстояния», но если выбор уместен, то постепенное сокращение этого «расстояния» во время оптимизации приводит к постепенному улучшению оценки модели. Следовательно, выбор «статистического расстояния» или меры ошибки связан с основным распределением данных.
На самом деле, существует несколько четко определенных показателей расстояния / ошибки для различных классов статистических распределений. Желательно выбрать меру ошибки, основанную на распределении данных в руке. Так уж получилось, что распределение Гаусса является вездесущим, и, следовательно, связанная с ним мера расстояния, L2-норма, является самой популярной мерой ошибки. Однако это не правило, и существуют данные реального мира, для которых «эффективная» * оптимизационная реализация будет принимать меру ошибки, отличную от L2-нормы.
Рассмотрим множество расхождений Брегмана . Каноническим представлением этой меры дивергенции является L2-норма (квадрат ошибки). Он также включает относительную энтропию (расхождение Кульбака-Либлера), обобщенное евклидово расстояние (метрика Махаланобиса) и функцию Итакура-Сайто. Вы можете прочитать больше об этом в этой статье о функциональной дивергенции Брегмана и байесовской оценке распределений .
Вывод: L2-норма имеет интересный набор свойств, что делает ее популярным выбором для измерения ошибки (другие ответы здесь упоминали некоторые из них, достаточные для объема этого вопроса), и квадратичная ошибка будет подходящей Выбор большую часть времени. Тем не менее, когда это требуется для распределения данных, существуют альтернативные меры ошибок, и выбор в значительной степени зависит от формулировки процедуры оптимизации.
* «Соответствующая» мера ошибки сделала бы функцию потерь выпуклой для оптимизации, что очень полезно, в отличие от некоторой другой меры ошибки, где функция потерь невыпуклая и, следовательно, как известно, трудная.
источник
В дополнение к ключевым моментам, сделанным другими, использование квадратичной ошибки делает больший акцент на большей ошибке (что происходит с 1/2, когда вы возводите ее в квадрат против 3/2?).
Наличие алгоритма, который перемещает дробные ошибки, который, скорее всего, приведет к правильной классификации или очень малой разнице между оценкой и истинностью, если оставить ее близкой к нулю, оставляя при этом большие ошибки как большие ошибки или неправильные классификации, не является желательной характеристикой алгоритм.
Использование квадрата ошибки использует ошибку в качестве веса подразумеваемой важности для корректировки прогноза.
источник
В своей формулировке вы пытаетесь получить среднее отклонение вашего приближения от наблюдаемых данных.
Если среднее значение вашей аппроксимации близко или равно среднему значению наблюдаемых данных (что желательно и часто случается со многими схемами аппроксимации), то результат вашей формулировки будет нулевым или незначительным, поскольку положительные ошибки компенсируют отрицательными ошибки. Это может привести к выводу, что ваше приближение прекрасно для каждой наблюдаемой выборки, хотя это может быть и не так. Вот почему вы используете квадрат ошибки в каждой выборке и складываете их (в свою очередь каждая ошибка положительна).
Конечно, это только возможное решение, так как вы могли бы использовать L1-норму (абсолютное значение ошибки в каждой выборке) или многие другие вместо L2-нормы.
источник