Предположим, у меня есть вектор зависимых переменных и вектор независимой переменной. Когда отображается на графике , я вижу, что между ними существует линейная зависимость (восходящая тенденция). Теперь это также означает, что между и существует линейная тенденция к снижению .NYNXY1XYX
Теперь, если я запускаю регрессию:
и получаю подходящее значениеY=β∗X+ϵY^=β^X
Затем я запускаю регрессию: и получаю подходящее значение Y=α∗1X+ϵY~=α^1X
Будут ли приблизительно два одинаковых прогнозируемых значения и ?Y^Y~
Когда Y отображается на графике , я вижу, что между ними существует линейная зависимость (восходящая тенденция). Теперь это также означает, что между Y и X существует линейная тенденция к снижению1X
Последнее предложение неверно: есть нисходящий тренд, но он ни в коем случае не линейный:
Я использовал , как функции плюс немного шума на . Как вы можете видеть, в то время как построение против приводит к линейному поведению, против далеко от линейного.f(x)=1xYY1XYX
(@whuber указывает, что график против не выглядит гомоскедастичным. Я думаю, что он имеет более высокую дисперсию для низкого потому что гораздо более высокая плотность регистра приводит к большему диапазону, который по сути то, что мы воспринимаю. На самом деле, данные гомоскедастичны: я использовал для генерации данных, поэтому нет зависимости от размера )Y1XYY = 1 / X + rnorm (length (X), sd = 0.1)X
Так что в целом отношения очень нелинейные. То есть, если ваш диапазон не настолько узок, что вы можете приблизитьВот пример:Xd1xdx=−1x2≈const.
Нижняя граница:
В общем, очень трудно аппроксимировать функцию типа линейной или полиномиальной функцией. А без смещения вы никогда не получите разумного приближения.1X
Если интервал достаточно узок, чтобы позволить линейное приближение, вы все равно не сможете по данным догадаться, что отношение должно быть а не линейным ( ).X1XX
Вы начинаете с неверного предположения: ОП никогда не утверждал, что и линейно связаны. Единственным утверждением было то, что и кажутся линейно связанными (с отрицательным наклоном). Это, конечно, указывает на то, что и являются нелинейно связаны между собой . Я думаю, что это настолько серьезное отклонение от положения вопроса, что остальная часть вашего поста может только еще больше ввести в заблуждение читателей. YXY1/XYX
whuber
2
@whuber: Мне очень жаль, но сейчас кажется, что все довольно плотно. Вопрос говорит: «Когда Y строится на графике против 1 / X, я вижу, что существует линейная зависимость (восходящий тренд)». Вот что я пытался изобразить на 1-м и 3-м изображениях: Y более 1 / X линейно увеличивается. Затем я нанес на график соответствующий Y над X (нелинейный, убывающий). Где я неправильно понимаю ОП?
cbeleites недоволен SX
1
Не сожалейте - я просто неправильно прочитал ваш пост (переставив метки осей X на первом изображении)! Вся вина моя. Поэтому я одобряю ваш ответ, который является правильным и информативным. Однако, если у вас есть шанс, вы можете прокомментировать влияние этого преобразования на гомоскедастичность (или ее отсутствие) остатков (которые могут быть обнаружены на графике против ). Y1/X
whuber
Спасибо за замечания по гомоскедастичности. Преобразовывая независимую переменную, вы не изменяете гомоскедастичность ответа, но, как вы указали, ее внешний вид, безусловно, может измениться, что полезно знать. (Мы видели это явление в нескольких других постах, где люди неправильно приписывают гетероскедастичность, например, простым различиям в групповых популяциях.)
whuber
Очень подробный ответ и комментарии! Спасибо @cbeleites и @whuber!
Mayou
2
Я не вижу причин для того, чтобы они были «примерно равными» в целом - но что именно вы подразумеваете под «примерно равными»?
Вот игрушечный пример:
library(ggplot2)
n <- 10^3
df <- data.frame(x=runif(n, min=1, max=2))
df$y <- 5 / df$x + rnorm(n)
p <- (ggplot(df, aes(x=x, y=y)) +
geom_point() +
geom_smooth(method="lm", formula=y ~ 0 + x) + # Blue, OP's y hat
geom_smooth(method="lm", formula=y ~ 0 + I(x^-1), color="red")) # Red, OP's y tilde
p
Изображение:
«Синяя» модель была бы намного лучше, если бы ей позволили иметь перехватывающий (то есть постоянный) термин ...
Трудно сказать, что вы делаете с синей моделью, но это, безусловно, совсем не то, что описывает OP! Красный намного ближе к ситуации, представленной в вопросе.
whuber
@cbeleites Отсутствие смещения объясняет, что в противном случае было загадкой. Адриан, вы правы - но я сомневаюсь, что ваш пример имеет большое значение для данных ОП. В посте описывается ситуация, в которой график против (без какого-либо перехвата) кажется хорошим, тогда как вы иллюстрируете ситуацию, когда хорошие отношения находятся между и - и, конечно, против подходит ужасно. Y1/XYXY1/X
Я не вижу причин для того, чтобы они были «примерно равными» в целом - но что именно вы подразумеваете под «примерно равными»?
Вот игрушечный пример:
Изображение:
«Синяя» модель была бы намного лучше, если бы ей позволили иметь перехватывающий (то есть постоянный) термин ...
источник