Является ли регрессия x на y явно лучше, чем y на x в этом случае?

10

Прибор, используемый для измерения уровня глюкозы в крови человека, контролируется на случайной выборке из 10 человек. Уровни также измеряются с использованием очень точной лабораторной процедуры. Мера инструмента обозначается х. Мера лабораторной процедуры обозначается у.

Я лично считаю, что y на x более правильное, потому что намерение состоит в том, чтобы использовать показания прибора для прогнозирования лабораторных показаний. И у на х минимизирует ошибки таких прогнозов.

Но ответ был х на у.

Нео
источник
2
Добро пожаловать на сайт, @Neo. Если этот вопрос был мотивирован упражнением в классе / учебнике, добавьте [self-study]тег.
gung - Восстановить Монику

Ответы:

6

Многие лабораторные работы, особенно эксперименты по тестированию инструментов, применяют такую ​​регрессию.

Они утверждают, что из сбора данных в эксперименте, условия y контролируются, и получают x из показаний прибора (внося некоторую ошибку в него). Это исходная физическая модель эксперимента, поэтому ошибка x ~ y + является более подходящей.

Чтобы свести к минимуму ошибку эксперимента, иногда, если y контролируется в одном и том же состоянии, тогда x измеряется несколько раз (или повторяется эксперимент). Эта процедура может помочь вам понять логику, стоящую за ними, и найти ошибку x ~ y + более четко.

Винсент
источник
+1 Я действительно думаю об ответе до сих пор, это, вероятно, лучше всего относится к оригинальному сообщению. Этот вопрос почти наверняка был мотивирован пониманием инструмента, а не калибровкой прокси. Если у вас есть только одно измерение X для каждого Y, то я почти уверен (без комментариев), что Y-on-X - правильный подход. Несколько X уничтожают это, хотя X-on-Y все еще корректно (но не может использоваться для предсказания Y).
Короне
У вас есть проблема, @Corone: если оба X против Y и Y против X верны, мы все знаем, что вы получите отчетливо отличающиеся подгоночные линии всякий раз, когда меньше 1 . Какую из этих двух линий вы бы выбрали и на каком основании? Правильное разрешение этой дилеммы состоит в том, что, как объясняет Винсент, в нашей концепции погрешности измерения есть асимметрия: прибор измеряется с заметной ошибкой; предполагается, что в лаборатории нет заметной ошибки. Обычные регрессионные процедуры предполагают, что X не имеет ошибки, и вся ошибка в Y, так что это решает. R21
whuber
@ whuber они оба правильные, но отвечают на разные проблемы. При многократном измерении Х Y-on-X больше не подходит даже для той задачи, на которую он должен был ответить. Мои комментарии становятся глупыми, хотя, поэтому вместо этого отредактирую мой ответ
Korone
6

Как обычно бывает, разные анализы отвечают на разные вопросы. Здесь можно использовать как и X  на  Y , вы просто хотите убедиться, что ваш анализ соответствует вопросу, на который вы хотите ответить. (Более подробно вы можете прочитать мой ответ здесь: в чем разница между линейной регрессией на Y с X и X с Y? )Y on XX on Y

Вы правы , что если все , что вы хотите сделать , это предсказать наиболее вероятное значение , данное знание из X значения, вы бы регрессировать Y  на  X . Однако, если вы хотите понять, как эти показатели связаны друг с другом, вы можете использовать подход с ошибками в переменных , поскольку вы полагаете, что в X существует ошибка измерения . YXY on XX

С другой стороны, регресс (и предполагая , Y совершенно безошибочным - так называемый золотой стандарт ) позволяет изучать свойства измерений по X . Например, вы можете определить, смещается ли инструмент по мере увеличения (или уменьшения) истинного значения, оценивая, является ли функция прямой или изогнутой. X on YYX

При попытке понять свойство измерительного прибора, понимая природу ошибки измерения очень важно, и это может быть сделано путем регресса . Например, при проверке гомоскедастичности вы можете определить, изменяется ли погрешность измерения в зависимости от уровня истинного значения конструкции. С приборами часто бывает больше ошибок измерения в крайних точках диапазона, чем в середине его применимого диапазона (т. Е. В его «сладком месте»), поэтому вы можете определить это или, возможно, определить, что является наиболее подходящим Диапазон есть. Вы также можете оценить суммуX on Yошибки измерения в вашем приборе с среднеквадратичной ошибкой (остаточное стандартное отклонение); конечно, это предполагает гомоскедастичность, но вы также можете получить оценки в разных точках подгоняя гладкую функцию, такую ​​как сплайн , к остаткам. Y

Учитывая эти соображения, я предполагаю, что лучше, но это, безусловно, зависит от ваших целей. X on Y

Gung - Восстановить Монику
источник
+1 Для того, чтобы признать, что регрессия на X требует ошибок в переменных и что ответ действительно требует понимания целей анализа. YX
whuber
@whuber Ошибки в переменных не подходят для прогнозирования. Ошибки в переменных полезны, если вы хотите понять величину отношения, но у вас есть ошибки измерения в X и Y. Для прогнозирования X «известен без ошибок», если он собирается таким же образом в вашем обучающем наборе и Прогноз установлен.
Короне
@ Corone Вы правы, что ошибки в переменных не годятся для предсказания, но это не то, что рекомендуется, насколько я могу судить. Действительно, именно поэтому нужно действительно регрессировать инструмент против лаборатории (которая использует только OLS), а не наоборот. Пожалуйста, ознакомьтесь со ссылкой на Draper & Smith, которую я цитирую в другом комментарии к этой теме. Я полагаюсь на раздел 1.7 второго издания.
whuber
@ Короне, ты прав насчет предсказания / ошибок в переменных, но это не совсем то, что я хотел сказать. Я постараюсь придумать лучший способ выразить это.
gung - Восстановить Монику
4

Прогнозирование и прогнозирование

Да, вы правы, когда вы рассматриваете это как проблему прогнозирования, регрессия Y-on-X даст вам модель, такую, что с помощью измерения инструмента вы можете сделать объективную оценку точного лабораторного измерения, не выполняя лабораторную процедуру ,

Другими словами, если вы просто заинтересованы в тогда вы хотите регрессию Y-на-X.E[Y|X]

Это может показаться нелогичным, потому что структура ошибок не является «реальной». Предполагая, что лабораторный метод является золотым стандартом безошибочного метода, мы «знаем», что истинная модель генерации данных

Xi=βYi+ϵi

где и ϵ i - независимые идентичные распределения, а E [ ϵ ] = 0YiϵiЕ[ε]знак равно0

Мы заинтересованы в получении наилучшей оценки . Из-за нашего предположения о независимости мы можем изменить вышесказанное:Е[Yя|Икся]

Yязнак равноИкся-εβ

Теперь, принимая ожидания, учитывая где вещи становятся волосатымиИкся

Е[Yя|Икся]знак равно1βИкся-1βЕ[εя|Икся]

Е[εя|Икся]εИкс

Явно, без ограничения общности мы можем позволить

εязнак равноγИкся+ηя

Е[ηя|Икс]знак равно0

Yязнак равно1βИкся-γβИкся-1βηя

Yязнак равно1-γβИкся-1βηя

ηββσ

Yязнак равноαИкся+ηя

β

Анализ инструментов

Человек, который задал вам этот вопрос, явно не хотел ответа выше, так как они говорят, что X-on-Y - правильный метод, так почему они могли этого хотеть? Скорее всего, они рассматривали задачу понимания инструмента. Как уже говорилось в ответе Винсента, если вы хотите узнать о том, как они хотят, чтобы инструмент вел себя, X-on-Y - это то, что нужно.

Возвращаясь к первому уравнению выше:

Иксязнак равноβYя+εя

Е[Икся|Yя]знак равноYяИксβ

усадка

YЕ[Y|Икс]γЕ[Y|Икс]Y, Затем это приводит к таким понятиям, как регрессия к среднему значению и эмпирический метод Байеса.

Пример на R Один из способов понять, что здесь происходит, - собрать некоторые данные и опробовать методы. Приведенный ниже код сравнивает X-on-Y с Y-on-X для прогнозирования и калибровки, и вы можете быстро увидеть, что X-on-Y не подходит для модели прогнозирования, но является правильной процедурой для калибровки.

library(data.table)
library(ggplot2)

N = 100
beta = 0.7
c = 4.4

DT = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT[, X := 0.7*Y + c + epsilon]

YonX = DT[, lm(Y~X)]   # Y = alpha_1 X + alpha_0 + eta
XonY = DT[, lm(X~Y)]   # X = beta_1 Y + beta_0 + epsilon


YonX.c = YonX$coef[1]   # c = alpha_0
YonX.m = YonX$coef[2]   # m = alpha_1

# For X on Y will need to rearrage after the fit.
# Fitting model X = beta_1 Y + beta_0
# Y = X/beta_1 - beta_0/beta_1

XonY.c = -XonY$coef[1]/XonY$coef[2]      # c = -beta_0/beta_1
XonY.m = 1.0/XonY$coef[2]  # m = 1/ beta_1

ggplot(DT, aes(x = X, y =Y)) + geom_point() +  geom_abline(intercept = YonX.c, slope = YonX.m, color = "red")  +  geom_abline(intercept = XonY.c, slope = XonY.m, color = "blue")

# Generate a fresh sample

DT2 = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT2[, X := 0.7*Y + c + epsilon]

DT2[, YonX.predict := YonX.c + YonX.m * X]
DT2[, XonY.predict := XonY.c + XonY.m * X]

cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])

# Generate lots of samples at the same Y

DT3 = data.table(Y = 4.0, epsilon = rt(N,8))
DT3[, X := 0.7*Y + c + epsilon]

DT3[, YonX.predict := YonX.c + YonX.m * X]
DT3[, XonY.predict := XonY.c + XonY.m * X]

cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])

ggplot(DT3) + geom_density(aes(x = YonX.predict), fill = "red", alpha = 0.5) + geom_density(aes(x = XonY.predict), fill = "blue", alpha = 0.5) + geom_vline(x = 4.0, size = 2) + ggtitle("Calibration at 4.0")

Две линии регрессии нанесены на данные

введите описание изображения здесь

И тогда ошибка суммы квадратов для Y измеряется для обоих подгонок на новой выборке.

> cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
YonX sum of squares error for prediction:  77.33448
> cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
XonY sum of squares error for prediction:  183.0144

В качестве альтернативы выборка может быть сгенерирована при фиксированном Y (в данном случае 4) и затем усреднена из этих взятых оценок. Теперь вы можете видеть, что предиктор Y-on-X плохо откалиброван с ожидаемым значением, намного меньшим, чем Y. Предиктор X-on-Y хорошо откалиброван с ожидаемым значением, близким к Y.

> cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
Expected value of X at a given Y (calibrated using YonX) should be close to 4:  1.305579
> cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
Expected value of X at a gievn Y (calibrated using XonY) should be close to 4:  3.465205

Распределение двух предсказаний можно увидеть на графике плотности.

введите описание изображения здесь

Korone
источник
YИксИкс
3
Проблема в том, что вы не смотрите на полную модель, которая является Yзнак равноβ0+β1Икс+εVar(ε)знак равноσ2,Иксзнак равно(Y-β0-ε)/β1Иксзнак равноα0+α1Y+δVar(δ)знак равноσ2α12σ2
1
β
2
Y может быть случайной величиной в популяции людей, но для любого конкретного человека это параметр, подлежащий оценке. Регрессия Y на X уменьшает каждую оценку Y до среднего по группе, что уменьшает среднеквадратичную ошибку по людям, но создает систематические отклонения, которые могут быть неприемлемы по этическим или юридическим причинам. Регрессия X на Y дает информацию, которую можно использовать для построения несмещенного доверительного интервала для Y каждого человека, но эти интервалы имеют тенденцию быть широкими, как синяя область на графике, тогда как интервал прогнозирования от регрессии Y на X является более узким, но смещенным вроде красный.
Рэй Купман
1
@RayKoopman, это прекрасный способ выразить это! Да, Y на X - это получение наилучшего прогноза в среднем по множеству разных Y, в то время как калибровка - на то, чтобы быть справедливым и беспристрастным для отдельного Y.
Korone
2

Это зависит от ваших предположений о дисперсии X и дисперсии Y для обычных наименьших квадратов. Если Y имеет единственный источник дисперсии, а X имеет нулевую дисперсию, то используйте X для оценки Y. Если допущения противоположны (X имеет единственную дисперсию, а Y имеет нулевую дисперсию), тогда используйте Y для оценки X.

Если предполагается, что и X, и Y имеют дисперсию, то вам, возможно, придется учесть Total Least Squares .

Хорошее описание TLS было написано по этой ссылке . Документ ориентирован на торговлю, но раздел 3 хорошо описывает TLS.

Изменить 1 (09.10.2013) ========================================= ======

Первоначально я предполагал, что это была какая-то домашняя проблема, поэтому я не совсем определился с «ответом» на вопрос ОП. Но, прочитав другие ответы, похоже, что все в порядке, чтобы быть немного более подробным.

Цитирую часть вопроса ОП:

«.... Уровни также измеряются с использованием очень точной лабораторной процедуры ....»

Вышеприведенное утверждение говорит о том, что есть два измерения, одно из прибора и одно из лабораторной процедуры. Утверждение также подразумевает, что дисперсия для лабораторной процедуры является низкой по сравнению с дисперсией для прибора.

Еще одна цитата из вопроса ОП:

«.... Мера лабораторной процедуры обозначается у .....»

Итак, из двух приведенных выше утверждений Y имеет меньшую дисперсию. Таким образом, наименее подверженный ошибкам метод заключается в использовании Y для оценки X. «Предоставленный ответ» был правильным.

bill_080
источник
1
XY
Нет, выбор регрессии не должен быть сделан, основываясь на том, где разница - это должно быть сделано на основе вопроса, на который вы пытаетесь ответить. Если вы используете TLS для построения модели прогнозирования для Y с учетом X, вы будете неправы. TLS и аналогичные модели ошибок в переменных - все о понимании истинной взаимосвязи между основными переменными / процессами, а не о прогнозировании
Korone
1
@ Короне Хотя вы правы в том, что ваши цели определяют выбор статистических процедур, процедура также должна соответствовать вероятностной модели («где дисперсия»). Если ваша цель состоит в том, чтобы предсказать лабораторные показания на основе показаний прибора с высокой дисперсией, определенно выберите подходящую для этого процедуру: но эта процедура не является прогнозированием с использованием обычного подбора наименьших квадратов и его оценок отклонений.
whuber
1
@Corone - я согласен, что метод регрессии должен основываться на вопросе, на который вы пытаетесь ответить, однако выбранный метод содержит предположения о дисперсии переменных. Если допущения по отклонению выбора не соответствуют вашей концепции для модели, значит, вы выбрали неправильную технику. Вот почему я перечислил 3 возможности (нулевая дисперсия X для оценки Y; нулевая дисперсия Y для оценки X; или ненулевая дисперсия X и Y).
bill_080