Подводные камни, которых следует избегать при преобразовании данных?

15

Я добился прочной линейной взаимосвязи между моей переменной X и Y после двукратного преобразования ответа. Модель была YX но я преобразовал ее в YXX улучшилR2с .19 до .76.

Очевидно, я сделал приличную операцию на этих отношениях. Может ли кто-нибудь обсудить подводные камни, связанные с этим, такие как опасность чрезмерных преобразований или возможные нарушения статистических принципов?

Info5ek
источник
1
Исходя из того, что у вас есть, только из алгебры это выглядит как YX2 . Можете ли вы опубликовать данные или показать график? Существуют ли научные причины ожидать Y=0 при X=0 ?
Ник Кокс
1
@NickCox: Я думаю, что YX - нетрадиционная запись для EY=β0+β1X ; возможно, OP говорит скорее на R, чем на математике (что-то, конечно, не рекомендуется).
Scortchi - Восстановить Монику
@ Scortchi Боюсь, ты прав. Просмотр данных поможет в любом случае.
Ник Кокс
В этом случае 0 X будет означать 0 Y, так как Y ведет к смертельным случаям, а X является общим KM, управляемым всеми водителями.
Info5ek
2
@AaronHall Уравнение не обязательно бесполезно, поскольку (умножение обратно на этоX, которая в некоторых ситуациях вполне может быть потенциально правдоподобной моделью). ОднакоR2в форме уравнения, приведенного в вопросе, не слишком полезен, его нельзя сравнить с чем-то подобным в другом масштабе. (Кстати, если бы это был ваш отрицательный ответ на мой ответ, было бы полезно объяснить, что вы считаете неправильным в ответе.)Y=β0X+β1X+XϵR2
Glen_b

Ответы:

20

Вы не можете реально сравнить до и после, потому что основная изменчивость в Y отличается. Таким образом, вы буквально не можете получить никакого утешения от изменения в R 2 . Это не говорит вам ничего ценного в сравнении двух моделей.R2YR2

Эти две модели различаются по нескольким причинам, поэтому они означают разные вещи - они предполагают совершенно разные вещи относительно формы отношения и изменчивости члена ошибки (если рассматривать в терминах отношения между и X ). Поэтому, если вы заинтересованы в моделировании Y (если Y само по себе имеет смысл), создайте для этого хорошую модель. Если вы заинтересованы в моделировании YXYY (/Y имеет смысл), создайте для этого хорошую модель. ЕслиY несет смысл, а затем создайте хорошую модель для этого. Но сравните любые конкурирующие модели в сопоставимых масштабах. R2по разным ответам просто несопоставимы.Y/XR2

Если вы просто пробуете другие отношения в надежде найти трансформацию с высоким или любым другим показателем «хорошей подгонки» - на свойства любого вывода, который вы хотели бы провести, повлияет существование этот процесс поиска.R2

Оценки будут отклоняться от нуля, стандартные ошибки будут слишком малы, значения p будут слишком малы, доверительные интервалы слишком узки. Ваши модели в среднем окажутся «слишком хорошими» (в том смысле, что их поведение вне выборки будет разочаровывающим по сравнению с поведением в выборке).

Чтобы избежать такого переоснащения, необходимо, по возможности, выполнить идентификацию модели и оценку для различных подмножеств данных (и оценку модели для третьего). Если вы повторите эту процедуру на многих «разбивках» данных, взятых случайным образом, вы получите лучшее представление о том, насколько воспроизводимы ваши результаты.

Здесь много постов с соответствующими вопросами по этим вопросам: возможно, стоит попробовать поискать.

(Если у вас есть хорошие априорные причины для выбора конкретного преобразования, это другая проблема. Но поиск пространства преобразований, чтобы найти что-то подходящее, несет в себе всевозможные проблемы типа «отслеживания данных».)

Glen_b - Восстановить Монику
источник
Спасибо за ответ Глен. Причина, по которой я сделал это преобразование, заключается в том, что он единственный, который не дал мне предвзятых остатков. Я попробовал стандартные y / x, log (y), sqrt (y) и различные их комбинации. Все вылилось в наклонный остаточный участок. Только после двухэтапного преобразования я получил случайно появляющиеся остатки. Однако вы утверждаете, что эта модель потенциально неинформативна для данных вне выборки, так как я мог просто переопределить данные, правильно?
Info5ek
Ну да, но это проблема с любой формой спецификации модели при просмотре данных, так что это часто случается. Во многих ситуациях этого трудно избежать, и именно здесь может произойти разбиение выборки. (Перекрестная проверка может быть удобным инструментом в таких ситуациях.)
Glen_b -Reinstate Monica
Было бы полезно узнать причины понижения. Что не так с ответом? Возможно, это можно улучшить. (Если это не может быть улучшено, почему понизить голос?)
Glen_b
1
@Glen_b: Сложно провести перекрестную проверку плохо определенной процедуры - в каждом случае вам нужно будет повторять процесс просмотра диагностики, придумывать другое преобразование, когда оно вам не нравится, пробовать это и так далее.
Scortchi - Восстановить Монику
1
@ Scortchi Да, если преобразования не выбираются из известного пула кандидатов по какому-то простому правилу, это может быть невозможно.
Glen_b
16

Есть большая проблема, чем те, которые определены @Glen_b.

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

И я получаю 0,49 и P-значение, 5,5 × 10 - 16 .R25.5×1016

У вас есть с обеих сторон уравнения.X

Питер Флом - Восстановить Монику
источник
2
Не уверен, что это другая проблема, связанная с отсутствием хороших априорных причин для выражения модели одним, а не другим способом. Если вы позволите &Z=W=YX тогда вы можете также сказать, что первая модель (YX) имеетZ2по обе стороны уравнения. Z=XYXZ2
Scortchi - Восстановить Монику
4
Если & Z - случайный шум, регрессия Y на X дает сильную связь. Откуда асимметрия, которая помечает одну регрессию как ложную, а не другую, без учета того, что вообще значат переменные? Такого рода вещи обсуждались между Пирсоном и Юлом ( Aldrich (1995) ) и я с Юлем: ложная причина - не корреляция, а утверждение о причинно-следственной связи, основанной на этой корреляции. WZYX
Scortchi - Восстановить Монику
1
Да, но здесь, регрессия началась с X и Y. не это важно , какие переменные являются, так сказать, что переменные?
Питер Флом - Восстановить Монику
2
Не могу понять, почему это должно происходить, кроме случаев, когда @Glen_b указывает в своем первом предложении, если ваша цель состояла в том, чтобы предсказать Y , то высокий коэффициент определения модели для не к чему придраться. И, конечно, если у вас есть четкие представления о том, как выглядит термин ошибки, одна модель более податлива, чем другая. W
Scortchi - Восстановить Монику
4
Вы подняли хороший вопрос о W & Z, @Scortchi, но мне кажется, что важно, какие переменные вы считаете важными, и какие переменные вы создали, чтобы получить лучшую модель. Какие реальные переменные определяются значением X и т. Д. В контексте существенного вопроса. Из текста я делаю вывод, что ОП хочет понять отношения между X и Y и создал W & Z для улучшения подгонки модели. Т.е. в данном конкретном случае мне кажется, что Питер прав, вы не можете попытаться улучшить свою модель, поставив X с обеих сторон.
gung - Восстановить Монику
4

В примере @ Peter есть два элемента, которые может быть полезно распутать:

(1) Неправильная спецификация модели. Модели

yi=β0+β1xi+εi(1)

&

wi=γ0+γ1zi+ζi(2)

где wi=yixi & , оба не могут быть правдой Если вы повторно выражаете каждый в терминах ответа другого, они становятся нелинейными по параметрам, с гетероскедастическими ошибками.zi=xi

wi=β0zi2+β1+εizi2(1)

yi=(γ0xi+γ1xi+ζixi)2(2)

Если предполагается, что является гауссовой случайной величиной, независимой от X , то это особый случай модели 1, в которой β 1 = 0 , и вы не должны использовать модель 2. Но в равной степени, если WYXβ1=0W предполагается, что Гауссова случайная переменная, не зависящая от , вы не должны использовать модель 1. Любое предпочтение одной модели, а не другой, должно исходить из материальной теории или их соответствия данным.Z

(2) Преобразование ответа. Если вы знали, что & X является независимой гауссовой случайной величиной, почему связь между W & Z все же вас удивляет или вы бы назвали ее ложной? Условное ожидание W может быть аппроксимировано дельта-методом:YXWZW

EYx=EYzβ0+VarY8β03/2z

Это действительно функция .z

Следуя примеру ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

enter image description here

enter image description here

yxwzwzможет возникнуть соблазн думать, что вмешательство в увеличение мы можем только надеяться и молиться, чтобы они не поддавались искушению, от которого мы все постоянно предупреждены; это путаница корреляции с причинностью.zw

Aldrich (2005), «Соотношения подлинные и ложные в Пирсоне и Юле», Statistical Science , 10 , 4, представляет интересную историческую перспективу по этим вопросам.

Scortchi - Восстановить Монику
источник