Представьте, что у нас есть модель линейной регрессии с зависимой переменной . Мы находим его . Теперь мы делаем другую регрессию, но на этот раз для , и аналогично находим ее . Мне сказали, что я не могу сравнить оба чтобы увидеть, какая модель лучше подходит. Это почему? Причиной для меня было то, что мы будем сравнивать изменчивость разных величин (разных зависимых переменных). Я не уверен, что это должно быть достаточной причиной для этого. log ( y ) R 2 log ( y ) R 2
Также есть ли способ формализовать это?
Любая помощь будет оценена.
regression
data-transformation
r-squared
Старик в море.
источник
источник
Ответы:
Это хороший вопрос, потому что «разные величины» не являются чем-то вроде объяснения.
Есть две важные причины, по которым следует с осторожностью использовать для сравнения этих моделей: он слишком грубый (он на самом деле не оценивает качество соответствия ) и будет неподходящим по крайней мере для одной из моделей. Этот ответ касается второй проблемы.R2
Теоретическое лечение
сравнивает дисперсию остатков модели с дисперсией ответов. Дисперсия - среднеквадратичное аддитивное отклонение от подгонки. Таким образом, мы можем понимать R 2 как сравнение двух моделей ответа y .R2 R2 y
Модель «база» является
где - параметр (теоретический средний отклик), а δ i - независимые случайные «ошибки», каждая из которых имеет нулевое среднее значение и общую дисперсию τ 2 .μ δi τ2
Модель линейной регрессии вводит векторы качестве объясняющих переменных:xi
Число и вектор β являются параметрами (точка пересечения и «уклоны»). Ε я снова независимые случайные ошибки, каждый с нулевым средним и дисперсией общей сг 2 .β0 β εi σ2
оценивает уменьшение дисперсии, т 2 - σ 2 ,сравнению с исходной дисперсией т 2 .R2 τ2−σ2 τ2
Когда вы берете логарифмы и используете наименьшие квадраты, чтобы соответствовать модели , вы неявно сравниваете отношения формы
к одной из форм
Термины ошибки теперь умножают базовые отношенияexp(ηi) yi=exp(γ0+xiγ)
Обычно только один из этих наборов моделей может быть разумным описанием данных. Применение второго набора и ( 2 а )(1a) (2a) (1) (2) R2 R2
Анализ
Такая модель (которая обычно встречается) представляет собой метод наименьших квадратов, соответствующий экспоненциальному отношению,
источник