В чем разница между «коэффициентом детерминации» и «среднеквадратичной ошибкой»?

33

Что касается проблемы регрессии, я видел, как люди использовали «коэффициент детерминации» (он же R в квадрате), чтобы выполнить выбор модели, например, найти подходящий штрафной коэффициент для регуляризации.

Однако также часто используют «среднеквадратичную ошибку» или «среднеквадратичную ошибку» в качестве меры точности регрессии.

Так в чем же главное отличие этих двух? Могут ли они использоваться взаимозаменяемо для задач «регуляризации» и «регрессии»? И каково основное использование каждого на практике, например, в машинном обучении, задачах интеллектуального анализа данных?

dolaameng
источник

Ответы:

40

, гдеSSE- сумма квадратов ошибок (остатков или отклонений от линии регрессии), а- сумма квадратов отклонений отсреднего значениязависимого.р2знак равно1-SSЕSSTSSЕSSTY

MSЕзнак равноSSЕN-м , где - размер выборки, а - количество параметров в модели (включая перехват, если есть).Nм

р2 является стандартизированной мерой степени предсказуемости или соответствия в выборке. - это оценка дисперсии остаточных или непригодных чисел в популяции. Эти два показателя четко связаны, как видно из наиболее обычной формулы для скорректированного (оценка для населения):MSЕ р2р2

рadJ2знак равно1-(1-р2)N-1N-мзнак равно1-SSЕ/(N-м)SST/(N-1)знак равно1-MSЕσY2 .

ttnphns
источник
2
Я думал, что MSE является средним числом ошибок, что означает MSE = SSE / n, в каких случаях мы используем MSE = SSE / (nm)? Пожалуйста, объясни. Спасибо
Синколе Бранс
@SincoleBrans Пожалуйста, смотрите en.wikipedia.org/wiki/Mean_squared_error , раздел «Регрессия».
ttnphns
Я немного смущен. Результаты в martin-thoma.com/regression показывают, что модель может быть хорошей (по сравнению с некоторыми другими моделями) с R ^ 2, но в то же время плохой с MSE. Не могли бы вы объяснить это?
Мартин Тома