Регрессия с обратной независимой переменной

Предположим, у меня есть вектор зависимых переменных и вектор независимой переменной. Когда отображается на графике , я вижу, что между ними существует линейная зависимость (восходящая тенденция). Теперь это также означает, что между и существует линейная тенденция к снижению . $N$ $Y$ $N$ $X$ $Y$ $\frac{1}{X}$ $Y$ $X$

Теперь, если я запускаю регрессию: и получаю подходящее значение $Y = \beta * X + \epsilon$ $\hat{Y} = \hat{\beta}X$

Затем я запускаю регрессию: и получаю подходящее значение $Y = \alpha * \frac{1}{X} + \epsilon$ $\tilde{Y} = \hat{\alpha} \frac{1}{X}$

Будут ли приблизительно два одинаковых прогнозируемых значения и ? $\hat{Y}$ $\tilde{Y}$

regression data-transformation linear-model Mayou
источник

Ответы:

Когда Y отображается на графике , я вижу, что между ними существует линейная зависимость (восходящая тенденция). Теперь это также означает, что между Y и X существует линейная тенденция к снижению $\frac{1}{X}$

Последнее предложение неверно: есть нисходящий тренд, но он ни в коем случае не линейный: Y ~ 1 / X Y ~ X

Я использовал , как функции плюс немного шума на . Как вы можете видеть, в то время как построение против приводит к линейному поведению, против далеко от линейного. $f(x) = \frac{1}{x}$ $Y$ $Y$ $\frac{1}{X}$ $Y$ $X$

(@whuber указывает, что график против не выглядит гомоскедастичным. Я думаю, что он имеет более высокую дисперсию для низкого потому что гораздо более высокая плотность регистра приводит к большему диапазону, который по сути то, что мы воспринимаю. На самом деле, данные гомоскедастичны: я использовал для генерации данных, поэтому нет зависимости от размера ) $Y$ $\frac{1}{X}$ $Y$ Y = 1 / X + rnorm (length (X), sd = 0.1) $X$

Так что в целом отношения очень нелинейные. То есть, если ваш диапазон не настолько узок, что вы можете приблизитьВот пример: $X$ $\frac{d \frac{1}{x}}{dx} = - \frac{1}{x^2} \approx const.$

Y ~ 1 / X Y ~ X

Нижняя граница:

В общем, очень трудно аппроксимировать функцию типа линейной или полиномиальной функцией. А без смещения вы никогда не получите разумного приближения. $\frac{1}{X}$
Если интервал достаточно узок, чтобы позволить линейное приближение, вы все равно не сможете по данным догадаться, что отношение должно быть а не линейным ( ). $X$ $\frac{1}{X}$ $X$

cbeleites недоволен SX
источник

Вы начинаете с неверного предположения: ОП никогда не утверждал, что и линейно связаны. Единственным утверждением было то, что и кажутся линейно связанными (с отрицательным наклоном). Это, конечно, указывает на то, что и являются нелинейно связаны между собой . Я думаю, что это настолько серьезное отклонение от положения вопроса, что остальная часть вашего поста может только еще больше ввести в заблуждение читателей.

Y

$Y$

X

$X$

Y

$Y$

1 / X

$1/X$

Y

$Y$

X

$X$

whuber

@whuber: Мне очень жаль, но сейчас кажется, что все довольно плотно. Вопрос говорит: «Когда Y строится на графике против 1 / X, я вижу, что существует линейная зависимость (восходящий тренд)». Вот что я пытался изобразить на 1-м и 3-м изображениях: Y более 1 / X линейно увеличивается. Затем я нанес на график соответствующий Y над X (нелинейный, убывающий). Где я неправильно понимаю ОП?

cbeleites недоволен SX

Не сожалейте - я просто неправильно прочитал ваш пост (переставив метки осей X на первом изображении)! Вся вина моя. Поэтому я одобряю ваш ответ, который является правильным и информативным. Однако, если у вас есть шанс, вы можете прокомментировать влияние этого преобразования на гомоскедастичность (или ее отсутствие) остатков (которые могут быть обнаружены на графике против ).

Y

$Y$

1 / X

$1/X$

whuber

Спасибо за замечания по гомоскедастичности. Преобразовывая независимую переменную, вы не изменяете гомоскедастичность ответа, но, как вы указали, ее внешний вид, безусловно, может измениться, что полезно знать. (Мы видели это явление в нескольких других постах, где люди неправильно приписывают гетероскедастичность, например, простым различиям в групповых популяциях.)

whuber

Очень подробный ответ и комментарии! Спасибо @cbeleites и @whuber!

Mayou

Я не вижу причин для того, чтобы они были «примерно равными» в целом - но что именно вы подразумеваете под «примерно равными»?

Вот игрушечный пример:

library(ggplot2)
n <- 10^3
df <- data.frame(x=runif(n, min=1, max=2))
df$y <- 5 / df$x + rnorm(n)
p <- (ggplot(df, aes(x=x, y=y)) +
      geom_point() +
      geom_smooth(method="lm", formula=y ~ 0 + x) +  # Blue, OP's y hat
      geom_smooth(method="lm", formula=y ~ 0 + I(x^-1), color="red"))  # Red, OP's y tilde
p

Изображение:

Я бы сказал, что они далеко не «примерно равны»

«Синяя» модель была бы намного лучше, если бы ей позволили иметь перехватывающий (то есть постоянный) термин ...

Адриан
источник

Трудно сказать, что вы делаете с синей моделью, но это, безусловно, совсем не то, что описывает OP! Красный намного ближе к ситуации, представленной в вопросе.

whuber

@cbeleites Отсутствие смещения объясняет, что в противном случае было загадкой. Адриан, вы правы - но я сомневаюсь, что ваш пример имеет большое значение для данных ОП. В посте описывается ситуация, в которой график против (без какого-либо перехвата) кажется хорошим, тогда как вы иллюстрируете ситуацию, когда хорошие отношения находятся между и - и, конечно, против подходит ужасно.

Y

$Y$

1 / X

$1/X$

Y

$Y$

X

$X$

Y

$Y$

1 / X

$1/X$

whuber