Методы подбора «простой» модели ошибки измерения

13

Я ищу методы, которые можно использовать для оценки модели погрешности измерения "OLS".

yi=Yi+ey,i
xi=Xi+ex,i
Yi=α+βXi

Где ошибки независимы, нормальны с неизвестными отклонениями σy2 и σx2 . «Стандартный» OLS не будет работать в этом случае.

В Википедии есть несколько непривлекательных решений - эти два фактора заставляют вас предполагать, что либо «коэффициент дисперсии» либо " коэффициент надежности " , где \ sigma_ {X} ^ 2 - дисперсия истинного регрессора X_i . Я не удовлетворен этим, потому что как тот, кто не знает отклонений, знает их соотношение?δ=σy2σx2 σ 2 X Xiλ=σX2σx2+σX2σX2Xi

В любом случае, есть ли другие решения, кроме этих двух, которые не требуют, чтобы я «знал» что-либо о параметрах?

Решения только для пересечения и наклона в порядке.

probabilityislogic
источник
сама статья в Википедии дает вам ответ на этот вопрос. Если вы предполагаете нормальность «истинного» регрессора, то вам потребуются дополнительные условия для распределения ошибок. Если настоящий регрессор не гауссов, у вас есть надежда. См. Reiersol (1950) .
кардинал
Кроме того, что вы подразумеваете под «Решения только для пересечения и наклона в порядке». Это ваши только два параметра! Или вы надеялись также отойти от «настоящего» регрессора?
кардинал
@cardinal - я имел в виду, что меня не особо заботили два параметра масштаба и, как вы говорите, «истинный» регрессор . Xi
вероятностная
Понимаю. Это имеет смысл.
кардинал

Ответы:

7

Есть ряд возможностей, описанных Дж. В. Гиллардом в «Историческом обзоре линейной регрессии с ошибками в обеих переменных».

Если вы не заинтересованы в деталях или причины для выбора одного метода над другим, просто идти с самым простым, что нарисовать линию через центр тяжести с угловым коэффициентом р = S у / s х , т.е. отношение наблюдаемых стандартных отклонений (делая знак наклона таким же, как знак ковариации x и y ); как вы , вероятно , можете работать, это дает перехват на у оси Оу из альфа = ··· у - & beta ; ˉ х .(x¯,y¯)β^=sy/sxxyyα^=y¯β^x¯.

Преимущества этого конкретного подхода

  1. это дает ту же строку, сравнивая против у, как у против х ,xyyx
  2. он не зависит от масштаба, поэтому вам не нужно беспокоиться о единицах,
  3. он лежит между двумя обычными линиями линейной регрессии
  4. он пересекает их там, где они пересекаются в центре тяжести наблюдений, и
  5. это очень легко рассчитать.

Наклон - это среднее геометрическое наклона двух обычных наклонов линейной регрессии. Это также то, что вы получили бы, если бы вы стандартизировали наблюдения и y , нарисовали линию под углом 45 ° (или 135 °, если есть отрицательная корреляция), а затем отменили стандартизацию линии. Это также можно рассматривать как эквивалентность неявному предположению, что дисперсии двух наборов ошибок пропорциональны дисперсиям двух наборов наблюдений; насколько я могу судить, вы утверждаете, что не знаете, каким образом это неправильно.xy

Вот некоторый код R для иллюстрации: красная линия на графике - это регрессия OLS на X , синяя линия - регрессия OLS X на Y , а зеленая линия - это простой метод. Обратите внимание, что уклон должен быть около 5.YXXY

X0 <- 1600:3600
Y0 <- 5*X0 + 700
X1 <- X0 + 400*rnorm(2001)
Y1 <- Y0 + 2000*rnorm(2001)
slopeOLSXY  <- lm(Y1 ~ X1)$coefficients[2]     #OLS slope of Y on X
slopeOLSYX  <- 1/lm(X1 ~ Y1)$coefficients[2]   #Inverse of OLS slope of X on Y
slopesimple <- sd(Y1)/sd(X1) *sign(cov(X1,Y1)) #Simple slope
c(slopeOLSXY, slopeOLSYX, slopesimple)         #Show the three slopes
plot(Y1~X1)
abline(mean(Y1) - slopeOLSXY  * mean(X1), slopeOLSXY,  col="red")
abline(mean(Y1) - slopeOLSYX  * mean(X1), slopeOLSYX,  col="blue")
abline(mean(Y1) - slopesimple * mean(X1), slopesimple, col="green")
Генри
источник
@Henry, ваше определение р не имеет никакого смысла для меня. Некоторые "шляпы" отсутствуют? β^
кардинал
Это означает, что наблюдаемое стандартное отклонение делится на наблюдаемое стандартное отклонение { x i } . Я изменю σ на s{yi}{xi}σs
Генри
@ Генри, можешь уточнить некоторые из твоих комментариев? Что-то кажется мне неуместным на основании вашего текущего описания. Пусть β х у будет наклон в предположении у является ответом и х является предсказателем. Пусть β у й будут наклон в предположении х является ответом и у предсказателя. Тогда β х у = ρ ы у / ы х и β у х = ρ ы х / сβ^xyyxβ^yxxyβ^xy=ρ^sy/sx , где ρ представляет собой образецкорреляциимежду х и у . Таким образом, среднее геометрическое этих двух оценок наклона только ρ . β^yx=ρ^sx/syρ^xyρ^
кардинал
@cardinal: Нет - когда я вижу я имею в виду наклон 1 / b, поскольку его можно переписать как y = x / b - c / b . Когда вы пытаетесь нарисовать две линии OLS на одном графике вместе с наблюдаемыми точками (например, с y на вертикальной оси и x на горизонтальной оси), вы должны инвертировать один из уклонов. Так что я имел в виду , что вы берете среднее геометрическое р сек у / s х и s у /x=by+c1/by=x/bc/byxρ^sy/sx, который простоsy/sx. Или, если вы достаточно нетрадиционны, чтобы построитьyиxв обратном направлении как для линий, так и для наблюдаемых точек, то вы получите обратную величину как наклон. sy/ρ^sxsy/sxyx
Генри
@ Генри - это довольно интересный ответ. Я не обязательно сомневаюсь в его обоснованности, но одна вещь, которая меня удивляет, это то, что корреляция / ковариация между и X полностью отсутствует в ответе. Наверняка это должно иметь отношение к ответу? YX
вероятностная