Меня немного смущает лекция Эндрю Нга о линейной регрессии, посвященная машинному обучению. Там он дал функцию стоимости, которая минимизирует сумму квадратов как:
Я понимаю, откуда берется . Я думаю, что он сделал это так, чтобы, когда он выполнил производную на квадратном члене, 2 в квадратном члене отменил бы с половиной. Но я не понимаю, откуда взялись .
Зачем нам нужно делать ? В стандартной линейной регрессии ее нет, мы просто минимизируем невязки. Зачем нам это здесь?
regression
machine-learning
loss-functions
SmallChess
источник
источник
Ответы:
Как вы, похоже, понимаете, нам, безусловно, не нужен коэффициент для получения линейной регрессии. Минимизаторы, конечно, будут точно такими же, с ним или без него. Типичная причина нормализации по заключается в том, что мы можем рассматривать функцию стоимости как приближение к «ошибке обобщения», которая представляет собой ожидаемую квадратичную потерю в случайно выбранном новом примере (не в обучающем наборе):1/m m
Предположим, что взяты из некоторых распределение. Тогда для больших мы ожидаем, что(X,Y),(X(1),Y(1)),…,(X(m),Y(m)) m
Точнее, по строгому закону больших чисел у нас есть с вероятностью 1.
Примечание. Каждое из приведенных выше утверждений относится к какому-либо конкретному , выбранному без рассмотрения учебного набора. Для машинного обучения мы хотим, чтобы эти операторы сохранялись для некоторых выбранных на основе их хороших характеристик на обучающем наборе. Эти утверждения все еще могут сохраняться в этом случае, хотя нам нужно сделать некоторые предположения относительно набора функций , и нам нужно что-то более сильное, чем Закон больших чисел.θ θ^ {hθ|θ∈Θ}
источник
Вам не нужно . Функция потерь имеет одинаковый минимум, независимо от того, используете ли вы или подавляете его. Однако, если вы включите его, вы получите хорошую интерпретацию минимизации (одной половины) средней ошибки на точку данных. Другими словами, вы минимизируете частоту ошибок вместо общей ошибки.1m
Попробуйте сравнить производительность двух наборов данных разного размера. Необработанная сумма квадратов ошибок не сопоставима напрямую, так как большие наборы данных, как правило, имеют большую общую ошибку только из-за их размера. С другой стороны, средняя ошибка на точку данных равна .
Конечно. Ваш набор данных представляет собой набор точек данных . Если у вас есть модель , ошибка наименьших квадратов в одной точке данных{xi,yi} h h
это, конечно, отличается для каждого datapoint. Теперь, если мы просто суммируем ошибки (и умножим на половину по причине, которую вы описали), мы получим полную ошибку
но если мы разделим на число слагаемых, мы получим среднюю ошибку на точку данных
Преимущество средней ошибки в том , что если у нас есть два набора данных и из differeing размеров , то мы можем сравнивать средние ошибки , но не общее количество ошибок. Например, если второй набор данных, скажем, в десять раз больше первого, то мы ожидаем, что общая ошибка будет примерно в десять раз больше для той же модели. С другой стороны, средняя ошибка делит влияние размера набора данных, и поэтому мы ожидаем, что модели с одинаковой производительностью будут иметь одинаковые средние ошибки на разных наборах данных.{xi,yi} {x′i,y′i}
источник