Я хотел бы получить концептуальное понимание среднеквадратичной ошибки (RMSE) и среднего отклонения смещения (MBD). Рассчитав эти показатели для моих собственных сравнений данных, я часто был озадачен, обнаружив, что RMSE высока (например, 100 кг), тогда как MBD низка (например, менее 1%).
Более конкретно, я ищу ссылку (не онлайн), которая перечисляет и обсуждает математику этих мер. Каков обычно принятый способ вычисления этих двух показателей, и как я должен сообщить о них в статье в журнальной статье?
В контексте этого поста было бы очень полезно иметь «игрушечный» набор данных, который можно использовать для описания расчета этих двух показателей.
Например, предположим, что я должен найти массу (в кг) 200 виджетов, производимых сборочной линией. У меня также есть математическая модель, которая будет пытаться предсказать массу этих виджетов. Модель не должна быть эмпирической, и она может быть основана на физике. Я вычисляю RMSE и MBD между фактическими измерениями и моделью, обнаружив, что RMSE составляет 100 кг, а MBD составляет 1%. Что это означает концептуально, и как бы я интерпретировал этот результат?
Теперь предположим, что по результатам этого эксперимента я обнаружил, что RMSE составляет 10 кг, а MBD составляет 80%. Что это значит, и что я могу сказать об этом эксперименте?
В чем смысл этих мер и что они подразумевают (взятые вместе)? Какую дополнительную информацию дает MBD при рассмотрении с RMSE?
источник
Ответы:
Я думаю, что эти понятия легко объяснить. Поэтому я бы предпочел просто описать это здесь. Я уверен, что многие книги по элементарной статистике освещают эту тему, включая мою книгу «Основы биостатистики для врачей, медсестер и клиницистов».
Подумайте о цели с бычьим глазом посередине. Среднеквадратичная ошибка представляет собой среднеквадратичное расстояние от стрелы, нацеленной на цель и центр. Теперь, если ваши стрелки рассеиваются равномерно по центру, то стрелок не имеет прицельного прицеливания, а среднеквадратическая ошибка такая же, как и дисперсия.
Но в целом стрелки могут разбегаться вокруг точки от цели. Среднее квадратное расстояние стрелок от центра стрелок - это дисперсия. Этот центр можно рассматривать как точку прицеливания стрелков. Расстояние от этого центра стрелка или aimpoint до центра цели является абсолютной величиной смещения.
Думая о прямоугольном треугольнике, где квадрат гипотенузы является суммой квадратов двух сторон. Таким образом, квадрат расстояния от стрелки до цели - это квадрат расстояния от стрелки до точки цели и квадрат расстояния между центром цели и прицелом. Усреднение всех этих квадратичных расстояний дает среднеквадратичную ошибку как сумму квадратов смещения и дисперсии.
источник
RMSE - это способ измерения того, насколько хорошо наша прогностическая модель по сравнению с фактическими данными, чем меньше RMSE, тем лучше способ поведения модели, то есть если мы проверили это на новом наборе данных (не на нашем обучающем наборе), но затем снова получили среднеквадратическое среднеквадратичное значение 0,37 в диапазоне от 0 до 1 объясняет множество ошибок по сравнению с среднеквадратичным средним значением 0,01 в качестве лучшей модели. BIAS для переоценки или недооценки.
источник
Насколько я понимаю, RMSE дает более точное значение ошибки между моделью и наблюдаемой, однако BIAS, кроме того, чтобы дать значение ошибки (менее точное, чем RMSE), также может определить, является ли модель положительное или отрицательное смещение, если модель недооценивает или переоценивает наблюдаемые значения.
источник