Какая разница между дисперсией и среднеквадратичной ошибкой?

27

Я удивлен, что об этом раньше не спрашивали, но я не могу найти вопрос на stats.stackexchange.

Это формула для расчета дисперсии нормально распределенной выборки:

Σ(Икс-Икс¯)2N-1

Это формула для расчета среднеквадратичной ошибки наблюдений в простой линейной регрессии:

Σ(Yя-Y^я)2N-2

В чем разница между этими двумя формулами? Единственное отличие, которое я вижу, состоит в том, что MSE использует . Так что, если это единственная разница, почему бы не назвать их как дисперсию, но с разными степенями свободы?N-2

Лучиано
источник
Что это о странице Википедии здесь , что не ясно?
TrynnaDoStat
3
Дисперсия - это среднеквадратичное отклонение наблюдений от среднего. MSE, напротив, является средним квадратом отклонений прогнозов от истинных значений.
random_guy
3
И «дисперсия», и «среднеквадратическая ошибка» имеют несколько формул и различные приложения. Чтобы прояснить свой вопрос, не могли бы вы (а) описать, к каким данным вы применяете эти понятия, и (б) дать формулы для них? (Вполне вероятно, что при этом вы также
найдете
6
Там есть более общая формула, как частные случаи: , гдерпредставляет собой число параметровоцененных в получении уΣя(Yя-Y^я)2N-ппY^
Glen_b -Reinstate Моника
@Glen_b Не могли бы вы предоставить ссылку для получения дополнительной информации об этой общей формуле?
trianta2

Ответы:

28

Среднеквадратическая ошибка, как вы ее написали для OLS, что-то скрывает:

in(yiy^i)2n2=in[yi(β^0+β^xxi)]2n2

Обратите внимание, что числитель суммирует функции как y , так и x , поэтому вы теряете степень свободы для каждой переменной, следовательно, n2 . В формуле для выборочной дисперсии числитель является функцией одной переменной, поэтому вы теряете только одну степень свободы в знаменателе.

Однако вы заметили, что это концептуально схожие величины. Дисперсионная дисперсия измеряет разброс данных вокруг среднего значения выборки (в квадратах), в то время как MSE измеряет вертикальный разброс данных вокруг линии регрессии выборки (в квадратах вертикальных единиц).

Alexis
источник
@amoeba Привет! Спасибо за внимание. Есть ли официальное руководство по стилю резюме, которое предложило это изменение? Если так, я хочу узнать об этом. Если нет, то Glen_b однажды справедливо предупредил меня за то, что я колонизирую с моими личными предпочтениями стиля и редактирую другие вопросы и ответы. Что вы думаете? (И я спрашиваю это коллегиальным тоном: я думаю, что ваше редактирование действительно что-то добавляет. Просто хочу лучше понять наши значения редактирования.)
Алексис
1
Я не думаю, что есть какое-либо официальное руководство по стилю CV, делающее это предложение, но в LaTeX есть встроенные формулы (отмеченные одним знаком доллара), которые отображаются непосредственно в блоке текста, и отображаемые формулы (отмеченные двумя знаками доллара) которые отображаются на отдельной строке. Отображаемые формулы используют разную компоновку. Ваша формула изначально была в отдельной строке, но помечена одним знаком доллара; Я не думаю, что это имеет смысл. Тем не менее, вы правы в отношении личных предпочтений, поэтому не стесняйтесь отступать с извинениями. Причина, по которой я редактировал, заключалась в том, что я все равно исправлял опечатку в Q.
говорит амеба, восстановите Монику
β0N-1N-2
1

NN-1NN-1

знак равноβ0+β1×Иксβ0β1N-2

Бражеш Кумар
источник