Зачем использовать среднеквадратичную ошибку (RMSE) вместо средней абсолютной ошибки (MAE) ??
Здравствуй
Я исследовал ошибку, сгенерированную в вычислениях - сначала я рассчитал ошибку как среднеквадратичную среднеквадратичную ошибку.
Присмотревшись немного поближе, я вижу, что эффекты возведения в квадрат ошибки дают больший вес большим ошибкам, чем меньшим, отклоняя оценку ошибки в сторону нечетного выброса. Это довольно очевидно в ретроспективе.
Итак, мой вопрос - в каком случае средняя квадратная ошибка будет более подходящей мерой ошибки, чем средняя абсолютная ошибка? Последнее мне кажется более подходящим или я что-то упустил?
Чтобы проиллюстрировать это, я приложил пример ниже:
Диаграмма рассеяния показывает две переменные с хорошей корреляцией,
две гистограммы справа отображают погрешность между Y (наблюдаемая) и Y (прогнозируемая) с использованием нормированных RMSE (вверху) и MAE (внизу).
В этих данных нет значительных выбросов, и MAE дает меньшую ошибку, чем RMSE. Есть ли какой-либо разумный, кроме того, чтобы быть предпочтительным, MAE, для использования одной меры ошибки по сравнению с другой?
источник
Ответы:
Это зависит от вашей функции потери. Во многих случаях имеет смысл придавать больший вес точкам, которые находятся дальше от среднего значения, то есть отклонение на 10 более чем вдвое хуже, чем отклонение на 5. В таких случаях RMSE является более подходящей мерой ошибки.
Если отклонение на десять - это вдвое хуже, чем отклонение на 5, тогда лучше использовать MAE.
В любом случае, не имеет смысла сравнивать RMSE и MAE друг с другом, как вы делаете это в своем предпоследнем предложении («MAE дает меньшую ошибку, чем RMSE»). MAE никогда не будет выше RMSE из-за того, как они рассчитываются. Они имеют смысл только в сравнении с той же мерой ошибки: вы можете сравнить RMSE для метода 1 с RMSE для метода 2 или MAE для метода 1 с MAE для метода 2, но вы не можете сказать, что MAE лучше, чем RMSE для метода 1 потому что он меньше.
источник
Вот еще одна ситуация, когда вы хотите использовать (R) MSE вместо MAE: когда условное распределение ваших наблюдений асимметрично и вы хотите беспристрастное соответствие. (R) MSE минимизируется условным средним , MAE условным медианой . Таким образом, если вы минимизируете MAE, подгонка будет ближе к медиане и смещена.
Конечно, все это действительно зависит от вашей функции потери.
Та же проблема возникает, если вы используете MAE или (R) MSE для оценки прогнозов или прогнозов . Например, данные о небольших объемах продаж обычно имеют асимметричное распределение. Если вы оптимизируете MAE, вы можете быть удивлены, обнаружив, что MAE-оптимальный прогноз - это прогноз с плоским нулем.
Вот небольшая презентация, покрывающая это , и вот недавно приглашенный комментарий к конкурсу прогнозирования M4, где я объяснил этот эффект .
источник
N = 1e3; set.seed(1); y = rpois(N, lambda=1); yhat = c(y[2:N],0)
? Прогнозируемая плотность "разницы" будет минимальной, но фактическаяyhat
будет бесполезной. Конечно, это крайний случай. (Возможно, я упускаю что-то очевидное, заранее извиняюсь за это - у меня нет доступа к статье, только презентация.)RMSE - более естественный способ описания потерь на евклидовом расстоянии. Поэтому, если вы построите график в 3D, потеря будет в форме конуса, как вы можете видеть выше в зеленом цвете. Это также относится к более высоким измерениям, хотя это труднее визуализировать.
MAE можно рассматривать как расстояние до города. Это не совсем естественный способ измерения потерь, как вы можете видеть на графике синим цветом.
источник