Глядя на определения Википедии:
Мне кажется, что
где - это количество выборок, а - наша оценка .
Тем не менее, ни одна из статей Википедии не упоминает эту связь. Зачем? Я что-то пропустил?
Глядя на определения Википедии:
Мне кажется, что
где - это количество выборок, а - наша оценка .
Тем не менее, ни одна из статей Википедии не упоминает эту связь. Зачем? Я что-то пропустил?
Ответы:
На самом деле это упоминается в разделе регрессии среднего квадрата ошибки в Википедии:
Вы также можете найти здесь некоторую информацию: Ошибки и остатки в статистике. Здесь говорится, что выражение «среднеквадратичная ошибка» может иметь разные значения в разных случаях, что иногда бывает сложно.
источник
Но имейте в виду, что Sum of Squared Erros (SSE) и Residue Sum of Squares (RSS) иногда используются взаимозаменяемо, что приводит в замешательство читателей. Например, проверьте этот URL: https://365datascience.com/sum-squares/ для получения дополнительной информации о линейной регрессии.
Строго говоря, со статистической точки зрения ошибки и остатки - это совершенно разные понятия. Ошибки в основном относятся к разнице между фактическими наблюдаемыми значениями выборки и вашими предсказанными значениями и используются в основном в статистических показателях, таких как среднеквадратичные ошибки (RMSE) и средние абсолютные ошибки (MAE). Напротив, остатки относятся исключительно к различиям между зависимыми переменными и оценками от линейной регрессии.
источник
Я не думаю, что это правильно, если мы считаем MSE областью RMSE. Например, у вас есть серия выборочных данных о прогнозах и наблюдениях, теперь вы пытаетесь выполнить линейную регрессию: Наблюдение (O) = a + b X Прогноз (P). В этом случае MSE представляет собой сумму квадратов разности между O и P и делится на размер выборки N.
Но если вы хотите измерить, как работает линейная регрессия, вам нужно рассчитать среднее квадратическое значение (MSR). В том же случае сначала будет вычисляться остаточная сумма квадратов (RSS), которая соответствует сумме квадратов разностей между фактическими значениями наблюдений и прогнозируемыми наблюдениями, полученными из линейной регрессии. Затем следует RSS, деленная на N-2, чтобы получить MSR.
Проще говоря, в этом примере MSE не может быть оценена с использованием RSS / N, поскольку компонент RSS больше не является тем же самым для компонента, используемого для вычисления MSE.
источник