Прибор, используемый для измерения уровня глюкозы в крови человека, контролируется на случайной выборке из 10 человек. Уровни также измеряются с использованием очень точной лабораторной процедуры. Мера инструмента обозначается х. Мера лабораторной процедуры обозначается у.
Я лично считаю, что y на x более правильное, потому что намерение состоит в том, чтобы использовать показания прибора для прогнозирования лабораторных показаний. И у на х минимизирует ошибки таких прогнозов.
Но ответ был х на у.
[self-study]
тег.Ответы:
Многие лабораторные работы, особенно эксперименты по тестированию инструментов, применяют такую регрессию.
Они утверждают, что из сбора данных в эксперименте, условия y контролируются, и получают x из показаний прибора (внося некоторую ошибку в него). Это исходная физическая модель эксперимента, поэтому ошибка x ~ y + является более подходящей.
Чтобы свести к минимуму ошибку эксперимента, иногда, если y контролируется в одном и том же состоянии, тогда x измеряется несколько раз (или повторяется эксперимент). Эта процедура может помочь вам понять логику, стоящую за ними, и найти ошибку x ~ y + более четко.
источник
Как обычно бывает, разные анализы отвечают на разные вопросы. Здесь можно использовать как и X на Y , вы просто хотите убедиться, что ваш анализ соответствует вопросу, на который вы хотите ответить. (Более подробно вы можете прочитать мой ответ здесь: в чем разница между линейной регрессией на Y с X и X с Y? )Y на X Икс на Y
Вы правы , что если все , что вы хотите сделать , это предсказать наиболее вероятное значение , данное знание из X значения, вы бы регрессировать Y на X . Однако, если вы хотите понять, как эти показатели связаны друг с другом, вы можете использовать подход с ошибками в переменных , поскольку вы полагаете, что в X существует ошибка измерения .Y Икс Y на X Икс
С другой стороны, регресс (и предполагая , Y совершенно безошибочным - так называемый золотой стандарт ) позволяет изучать свойства измерений по X . Например, вы можете определить, смещается ли инструмент по мере увеличения (или уменьшения) истинного значения, оценивая, является ли функция прямой или изогнутой.Икс на Y Y Икс
При попытке понять свойство измерительного прибора, понимая природу ошибки измерения очень важно, и это может быть сделано путем регресса . Например, при проверке гомоскедастичности вы можете определить, изменяется ли погрешность измерения в зависимости от уровня истинного значения конструкции. С приборами часто бывает больше ошибок измерения в крайних точках диапазона, чем в середине его применимого диапазона (т. Е. В его «сладком месте»), поэтому вы можете определить это или, возможно, определить, что является наиболее подходящим Диапазон есть. Вы также можете оценить суммуИкс на Y ошибки измерения в вашем приборе с среднеквадратичной ошибкой (остаточное стандартное отклонение); конечно, это предполагает гомоскедастичность, но вы также можете получить оценки в разных точках подгоняя гладкую функцию, такую как сплайн , к остаткам. Y
Учитывая эти соображения, я предполагаю, что лучше, но это, безусловно, зависит от ваших целей.Икс на Y
источник
Прогнозирование и прогнозирование
Да, вы правы, когда вы рассматриваете это как проблему прогнозирования, регрессия Y-on-X даст вам модель, такую, что с помощью измерения инструмента вы можете сделать объективную оценку точного лабораторного измерения, не выполняя лабораторную процедуру ,
Другими словами, если вы просто заинтересованы в тогда вы хотите регрессию Y-на-X.Е[ Y| Икс]
Это может показаться нелогичным, потому что структура ошибок не является «реальной». Предполагая, что лабораторный метод является золотым стандартом безошибочного метода, мы «знаем», что истинная модель генерации данных
где и ϵ i - независимые идентичные распределения, а E [ ϵ ] = 0Yя εя Е[ ϵ ] = 0
Мы заинтересованы в получении наилучшей оценки . Из-за нашего предположения о независимости мы можем изменить вышесказанное:Е[ Yя| Икся]
Теперь, принимая ожидания, учитывая где вещи становятся волосатымиИкся
Явно, без ограничения общности мы можем позволить
Анализ инструментов
Человек, который задал вам этот вопрос, явно не хотел ответа выше, так как они говорят, что X-on-Y - правильный метод, так почему они могли этого хотеть? Скорее всего, они рассматривали задачу понимания инструмента. Как уже говорилось в ответе Винсента, если вы хотите узнать о том, как они хотят, чтобы инструмент вел себя, X-on-Y - это то, что нужно.
Возвращаясь к первому уравнению выше:
усадка
Пример на R Один из способов понять, что здесь происходит, - собрать некоторые данные и опробовать методы. Приведенный ниже код сравнивает X-on-Y с Y-on-X для прогнозирования и калибровки, и вы можете быстро увидеть, что X-on-Y не подходит для модели прогнозирования, но является правильной процедурой для калибровки.
Две линии регрессии нанесены на данные
И тогда ошибка суммы квадратов для Y измеряется для обоих подгонок на новой выборке.
В качестве альтернативы выборка может быть сгенерирована при фиксированном Y (в данном случае 4) и затем усреднена из этих взятых оценок. Теперь вы можете видеть, что предиктор Y-on-X плохо откалиброван с ожидаемым значением, намного меньшим, чем Y. Предиктор X-on-Y хорошо откалиброван с ожидаемым значением, близким к Y.
Распределение двух предсказаний можно увидеть на графике плотности.
источник
Это зависит от ваших предположений о дисперсии X и дисперсии Y для обычных наименьших квадратов. Если Y имеет единственный источник дисперсии, а X имеет нулевую дисперсию, то используйте X для оценки Y. Если допущения противоположны (X имеет единственную дисперсию, а Y имеет нулевую дисперсию), тогда используйте Y для оценки X.
Если предполагается, что и X, и Y имеют дисперсию, то вам, возможно, придется учесть Total Least Squares .
Хорошее описание TLS было написано по этой ссылке . Документ ориентирован на торговлю, но раздел 3 хорошо описывает TLS.
Изменить 1 (09.10.2013) ========================================= ======
Первоначально я предполагал, что это была какая-то домашняя проблема, поэтому я не совсем определился с «ответом» на вопрос ОП. Но, прочитав другие ответы, похоже, что все в порядке, чтобы быть немного более подробным.
Цитирую часть вопроса ОП:
«.... Уровни также измеряются с использованием очень точной лабораторной процедуры ....»
Вышеприведенное утверждение говорит о том, что есть два измерения, одно из прибора и одно из лабораторной процедуры. Утверждение также подразумевает, что дисперсия для лабораторной процедуры является низкой по сравнению с дисперсией для прибора.
Еще одна цитата из вопроса ОП:
«.... Мера лабораторной процедуры обозначается у .....»
Итак, из двух приведенных выше утверждений Y имеет меньшую дисперсию. Таким образом, наименее подверженный ошибкам метод заключается в использовании Y для оценки X. «Предоставленный ответ» был правильным.
источник