Я попытаюсь объяснить это простыми словами.
Регрессионная модель фокусируется на взаимосвязи между зависимой переменной и набором независимых переменных. Зависимая переменная - это результат, который вы пытаетесь предсказать, используя одну или несколько независимых переменных.
Предположим, у вас есть такая модель:
Вес_i = 3.0 + 35 * Высота_i + ε
Теперь один из очевидных вопросов: насколько хорошо работает эта модель? Другими словами, насколько хорошо рост человека точно предсказывает - или объясняет - вес этого человека?
Прежде чем ответить на этот вопрос, мы должны сначала понять, сколько колебаний мы наблюдаем в весе людей. Это важно, потому что то, что мы пытаемся сделать здесь, это объяснить колебания (вариации) весов разных людей, используя их высоты. Если рост людей может объяснить это изменение веса, то у нас есть хорошая модель.
Дисперсия является хорошей метрикой быть использовано для этой цели, так как он измеряет , насколько это набор чисел разложены (от их среднего значения).
Это помогает нам перефразировать наш первоначальный вопрос: насколько разница в весе человека может быть объяснена его ростом ?
Отсюда и «% объясненной дисперсии». Кстати, для регрессионного анализа он равен коэффициенту корреляции R-квадрат .
Для модели, приведенной выше, мы могли бы сделать заявление, например: Используя регрессионный анализ, можно было установить прогностическую модель, используя рост человека, который объясняет 60% дисперсии в весе ».
Теперь, насколько хорошо 60%? Трудно сделать объективное суждение по этому поводу. Но если у вас есть другие конкурирующие модели - скажем, другая регрессионная модель, которая использует возраст человека для прогнозирования его / ее веса - вы можете сравнить различные модели на основе того, насколько они отличаются, и решить, какая модель лучше. (Есть некоторые оговорки к этому, см. «Интерпретация и использование регрессии» - Кристофер Х. Ахен http://www.sagepub.in/books/Book450/authors )
Авторы ссылаются на значение для модели, которое задается формулойр2
где - наблюдаемое значение, - наименьшее квадратичное значение для точки данных а - общее среднее. Мы иногда думаем о как о пропорции вариации, объясняемой моделью из-за общей суммы разложения квадратовYя Y^я яго Y¯ р2
последний термин - остаточная ошибка, которая не учитывается моделью. в основном говорит о том , как много общего изменения были «поглощены» подобранными значениями.р2
источник