Почему мы не можем использовать

Представьте, что у нас есть модель линейной регрессии с зависимой переменной . Мы находим его . Теперь мы делаем другую регрессию, но на этот раз для , и аналогично находим ее . Мне сказали, что я не могу сравнить оба чтобы увидеть, какая модель лучше подходит. Это почему? Причиной для меня было то, что мы будем сравнивать изменчивость разных величин (разных зависимых переменных). Я не уверен, что это должно быть достаточной причиной для этого. $y$ $R^2_y$ $\log(y)$ $R^2_{\log(y)}$ $R^2$

Также есть ли способ формализовать это?

Любая помощь будет оценена.

regression data-transformation r-squared Старик в море.
источник

Я подозреваю, что это могло обсуждаться ранее на Cross Validated. Тщательно ли вы прошли через подобные темы? Кроме того, вас интересуют разные зависимые переменные (например, ВВП относительно цены на нефть) или трансформации одной и той же переменной (ВВП против роста ВВП) или и то, и другое?

Ричард Харди

@RichardHardy Я нашел несколько, но я думаю, что они касались моего вопроса. Как этот: stats.stackexchange.com/questions/235117/… Ответ просто говорит да, не объясняя, почему.

Старик в море.

@RichardHardy Я заинтересован в преобразованиях зависимой переменной.

Старик в море.

R^{2}

$R^2$ сравнения имеет смысл только между вложенными моделями.

LVRao

@LVRao Спасибо за ваш комментарий. Почему это так?

Старик в море.

Это хороший вопрос, потому что «разные величины» не являются чем-то вроде объяснения.

Есть две важные причины, по которым следует с осторожностью использовать для сравнения этих моделей: он слишком грубый (он на самом деле не оценивает качество соответствия ) и будет неподходящим по крайней мере для одной из моделей. Этот ответ касается второй проблемы. $R^2$

Теоретическое лечение

сравнивает дисперсию остатков модели с дисперсией ответов. Дисперсия - среднеквадратичное аддитивное отклонение от подгонки. Таким образом, мы можем понимать как сравнение двух моделей ответа . $R^2$ $R^2$ $y$

Модель «база» является

\begin{matrix} (1) & y_{i} = μ + δ_{i} \end{matrix}

$y_i = \mu + \delta_i\tag{1}$

где - параметр (теоретический средний отклик), а - независимые случайные «ошибки», каждая из которых имеет нулевое среднее значение и общую дисперсию . $\mu$ $\delta_i$ $\tau^2$

Модель линейной регрессии вводит векторы качестве объясняющих переменных: $x_i$

\begin{matrix} (2) & y_{i} = β_{0} + x_{i} β + ε_{i} . \end{matrix}

$y_i = \beta_0 + x_i \beta + \varepsilon_i.\tag{2}$

Число и вектор являются параметрами (точка пересечения и «уклоны»). снова независимые случайные ошибки, каждый с нулевым средним и дисперсией общей . $\beta_0$ $\beta$ $\varepsilon_i$ $\sigma^2$

оценивает уменьшение дисперсии, ,сравнению с исходной дисперсией . $R^2$ $\tau^2-\sigma^2$ $\tau^2$

Когда вы берете логарифмы и используете наименьшие квадраты, чтобы соответствовать модели , вы неявно сравниваете отношения формы

\begin{matrix} (1a) & \log (y_{i}) = ν + ζ_{i} \end{matrix}

$\log(y_i) = \nu + \zeta_i\tag{1a}$

к одной из форм

\begin{matrix} (2a) & \log (y_{i}) = γ_{0} + x_{i} γ + η_{i} . \end{matrix}

$\log(y_i) = \gamma_0 + x_i\gamma + \eta_i.\tag{2a}$

$(1)$ $(2)$ $(2\text{a})$

y_{i} = \exp (\log (y_{i})) = \exp (γ_{0} + x_{i} γ) \exp (η_{i}) .

$y_i = \exp(\log(y_i)) = \exp(\gamma_0 + x_i\gamma)\exp(\eta_i).$

Термины ошибки теперь умножают базовые отношения $\exp(\eta_i)$ $y_i = \exp(\gamma_0 + x_i\gamma)$

Var (y_{i}) = \exp (γ_{0} + x_{i} γ)^{2} Var (e^{η_{i}}) .

$\operatorname{Var}(y_i) = \exp(\gamma_0 + x_i\gamma)^2\operatorname{Var}(e^{\eta_i}).$

$x_i$ $(2)$ $\sigma^2$

Обычно только один из этих наборов моделей может быть разумным описанием данных. Применение второго набора и $(1\text{a})$ $(2\text{a})$ $(1)$ $(2)$ $R^2$ $R^2$

Анализ

$R^2$ $x$ $y$ $\varepsilon_i$ $\eta_i$

Такая модель (которая обычно встречается) представляет собой метод наименьших квадратов, соответствующий экспоненциальному отношению,

\begin{matrix} (3) & y_{i} = \exp (α_{0} + x_{i} α) + θ_{i} . \end{matrix}

$y_i = \exp\left(\alpha_0 + x_i\alpha\right) + \theta_i.\tag{3}$

$y$ $x$ $(2\text{a})$ $\theta_i$ $(2)$ $R^2$ $x$ $y$

$(3)$ $300$ $x_i$ $1.0$ $1.6$ $(x,y)$ $(x,\log(y))$

$R^2$ $0.70$ $0.56$ $R^2$ $R^2$ $0.70$

$\log(y)$ $(3)$

Whuber
источник

Критика на R ^ 2 несправедлива. Как и любой инструмент, его использование должно быть хорошо понято. В приведенных выше примерах R ^ 2 дает правильное сообщение. R ^ 2 выбирает лучшее соотношение сигнал / шум. Конечно, это не очевидно, когда вы кладете два графика с совершенно разными масштабами рядом. На самом деле сигнал слева очень сильный по сравнению с шумовыми отклонениями.

Кагдас Озгенц

@Cagdas Похоже, вы предлагаете противоречивое сообщение. Поскольку эти два графика неизбежно находятся в двух разных масштабах - один показывает исходные ответы, а другой - их логарифмы, - тогда умоляя о том, что что-то «не очевидно» из-за этого неизбежного факта, похоже, не поддерживается ваш случай. Жаловаться на то, что этот ответ «несправедливый», на самом деле не выдерживает явный анализ предложенных мною моделей.

whuber

В том, что я говорю, нет никаких противоречий. R ^ 2 выбирает более высокое отношение сигнал / шум. Это то, что он делает. Попытка превратить это во что-то другое и заявить, что это не работает, совершенно неправильно. Вся критика в отношении R ^ 2 также применяется к другим показателям соответствия, когда они применяются к другой переменной отклика, но по какой-то причине R ^ 2 выбран в качестве козла отпущения.

Кагдас Озгенц

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

Спасибо за вашу помощь. Извините за поздний прием, у меня не было много свободного времени в последнее время. ;)

Старик в море.

Почему мы не можем использовать

Ответы:

Теоретическое лечение

Анализ