Какая разница между дисперсией и среднеквадратичной ошибкой?

Я удивлен, что об этом раньше не спрашивали, но я не могу найти вопрос на stats.stackexchange.

Это формула для расчета дисперсии нормально распределенной выборки:

\frac{Σ (Икс - \bar{Икс})^{2}}{N - 1}

$\frac{\sum(X - \bar{X}) ^2}{n-1}$

Это формула для расчета среднеквадратичной ошибки наблюдений в простой линейной регрессии:

\frac{Σ (Y_{я} - {\hat{Y}}_{я})^{2}}{N - 2}

$\frac{\sum(y_i - \hat{y}_i) ^2}{n-2}$

В чем разница между этими двумя формулами? Единственное отличие, которое я вижу, состоит в том, что MSE использует . Так что, если это единственная разница, почему бы не назвать их как дисперсию, но с разными степенями свободы? $n-2$

variance error Лучиано
источник

Что это о странице Википедии здесь , что не ясно?

TrynnaDoStat

Дисперсия - это среднеквадратичное отклонение наблюдений от среднего. MSE, напротив, является средним квадратом отклонений прогнозов от истинных значений.

random_guy

И «дисперсия», и «среднеквадратическая ошибка» имеют несколько формул и различные приложения. Чтобы прояснить свой вопрос, не могли бы вы (а) описать, к каким данным вы применяете эти понятия, и (б) дать формулы для них? (Вполне вероятно, что при этом вы также

найдете

Там есть более общая формула, как частные случаи:

, где

представляет собой число параметровоцененных в получении

\frac{\sum_{i} (y_{i} - {\hat{y}}_{i})^{2}}{n - p}

$\frac{\sum_i(y_i-\hat{y}_i)^2}{n-p}$

p

$p$

\hat{y}

$\hat{y}$

Glen_b -Reinstate Моника

@Glen_b Не могли бы вы предоставить ссылку для получения дополнительной информации об этой общей формуле?

trianta2

Ответы:

Среднеквадратическая ошибка, как вы ее написали для OLS, что-то скрывает:

\frac{\sum_{i}^{n} (y_{i} - {\hat{y}}_{i})^{2}}{n - 2} = \frac{\sum_{i}^{n} {[y_{i} - ({\hat{β}}_{0} + {\hat{β}}_{x} x_{i})]}^{2}}{n - 2}

$\frac{\sum_{i}^{n}(y_i - \hat{y}_i) ^2}{n-2} = \frac{\sum_{i}^{n}\left[y_i - \left(\hat{\beta}_{0} + \hat{\beta}_{x}x_{i}\right)\right] ^2}{n-2}$

Обратите внимание, что числитель суммирует функции как $y$ , так и $x$ , поэтому вы теряете степень свободы для каждой переменной, следовательно, $n-2$ . В формуле для выборочной дисперсии числитель является функцией одной переменной, поэтому вы теряете только одну степень свободы в знаменателе.

Однако вы заметили, что это концептуально схожие величины. Дисперсионная дисперсия измеряет разброс данных вокруг среднего значения выборки (в квадратах), в то время как MSE измеряет вертикальный разброс данных вокруг линии регрессии выборки (в квадратах вертикальных единиц).

Alexis
источник

@amoeba Привет! Спасибо за внимание. Есть ли официальное руководство по стилю резюме, которое предложило это изменение? Если так, я хочу узнать об этом. Если нет, то Glen_b однажды справедливо предупредил меня за то, что я колонизирую с моими личными предпочтениями стиля и редактирую другие вопросы и ответы. Что вы думаете? (И я спрашиваю это коллегиальным тоном: я думаю, что ваше редактирование действительно что-то добавляет. Просто хочу лучше понять наши значения редактирования.)

Алексис

Я не думаю, что есть какое-либо официальное руководство по стилю CV, делающее это предложение, но в LaTeX есть встроенные формулы (отмеченные одним знаком доллара), которые отображаются непосредственно в блоке текста, и отображаемые формулы (отмеченные двумя знаками доллара) которые отображаются на отдельной строке. Отображаемые формулы используют разную компоновку. Ваша формула изначально была в отдельной строке, но помечена одним знаком доллара; Я не думаю, что это имеет смысл. Тем не менее, вы правы в отношении личных предпочтений, поэтому не стесняйтесь отступать с извинениями. Причина, по которой я редактировал, заключалась в том, что я все равно исправлял опечатку в Q.

говорит амеба, восстановите Монику

β_{0}

$\beta_0$

n - 1

$n-1$

n - 2

$n-2$

$n$ $n-1$ $n$ $n-1$

$= \beta_{0} + \beta_{1}\times x$ $\beta_{0}$ $\beta_{1}$ $n-2$

Бражеш Кумар
источник