Я удивлен, что об этом раньше не спрашивали, но я не могу найти вопрос на stats.stackexchange.
Это формула для расчета дисперсии нормально распределенной выборки:
Это формула для расчета среднеквадратичной ошибки наблюдений в простой линейной регрессии:
В чем разница между этими двумя формулами? Единственное отличие, которое я вижу, состоит в том, что MSE использует . Так что, если это единственная разница, почему бы не назвать их как дисперсию, но с разными степенями свободы?
Ответы:
Среднеквадратическая ошибка, как вы ее написали для OLS, что-то скрывает:
Обратите внимание, что числитель суммирует функции какy , так и x , поэтому вы теряете степень свободы для каждой переменной, следовательно, n−2 . В формуле для выборочной дисперсии числитель является функцией одной переменной, поэтому вы теряете только одну степень свободы в знаменателе.
Однако вы заметили, что это концептуально схожие величины. Дисперсионная дисперсия измеряет разброс данных вокруг среднего значения выборки (в квадратах), в то время как MSE измеряет вертикальный разброс данных вокруг линии регрессии выборки (в квадратах вертикальных единиц).
источник
источник