Почему в линейной регрессии используется функция стоимости, основанная на вертикальном расстоянии между гипотезой и точкой входных данных?

14

Допустим, у нас есть входные (предикторные) и выходные (ответные) точки данных A, B, C, D, E, и мы хотим провести линию через точки. Это простая проблема для иллюстрации вопроса, но она может быть распространена и на более высокие измерения.

Постановка задачи

введите описание изображения здесь

Текущее наилучшее соответствие или гипотеза представлена черной линией выше. Синяя стрелка ( ) представляет вертикальное расстояние между точкой данных и текущим наилучшим соответствием, рисуя вертикальную линию от точки до пересечения линии.

Зеленая стрелка ( ) нарисована так, что она перпендикулярна текущей гипотезе в точке пересечения и, таким образом, представляет наименьшее расстояние между точкой данных и текущей гипотезой. Для точек A и B - линия, нарисованная так, что она вертикальна относительно текущего наилучшего предположения и похожа на линию, которая вертикальна относительно оси x. Для этих двух точек синяя и зеленая линии перекрываются, но не для точек C, D и E.

Принцип наименьших квадратов определяет функцию стоимости для линейной регрессии, проводя вертикальную линию через точки данных (A, B, C, D или E) к предполагаемой гипотезе ( ) в любом данном цикле обучения и представлен

CostFunction=i=1N(yihθ(xi))2

Здесь представляет точки данных, а представляет наилучшее соответствие.(xi,yi)hθ(xi)

Минимальное расстояние между точкой (A, B, C, D или E) представлено перпендикулярной линией, проведенной от этой точки до текущего наилучшего предположения (зеленые стрелки).

Цель функции наименьших квадратов состоит в том, чтобы определить целевую функцию, которая при минимизации приведет к наименьшему расстоянию между гипотезой и всеми объединенными точками, но не обязательно минимизирует расстояние между гипотезой и одной входной точкой.

**Вопрос**

Почему мы не определяем функцию стоимости для линейной регрессии как наименьшее расстояние между точкой входных данных и гипотезой (определяемой линией, перпендикулярной гипотезе), проходящей через входной канал данных, как задано ( )?

alpha_989
источник
5
Простая линейная регрессия предполагает отсутствие ошибки в значениях x-координат наблюдений (например, потому что это экспериментальные манипуляции). Если на оси абсцисс есть ошибки, их можно учесть путем минимизации функции стоимости, аналогичной той, которую вы предлагаете; для этого необходимо установить соотношение между дисперсией ошибок по осям x и y. Если отношение , это сводится к минимизации перпендикулярного расстояния между точками и линией (ортогональная регрессия). Если отношение 1 оно называется Deeming регрессия=11
Маттео
Смотрите этот пост на PCA: cerebralmastication.com/2010/09/…
Джеймс

Ответы:

13

При наличии шума как в зависимой переменной (вертикальные ошибки), так и в независимой переменной (горизонтальные ошибки), целевую функцию наименьших квадратов можно изменить, чтобы включить эти горизонтальные ошибки. Проблема в том, как взвесить эти два типа ошибок. Это взвешивание обычно зависит от отношения отклонений двух ошибок:

  1. Если дисперсия вертикальной ошибки чрезвычайно велика относительно дисперсии горизонтальной ошибки, OLS является правильным.
  2. Если дисперсия горизонтальной ошибки чрезвычайно велика относительно дисперсии вертикальной ошибки, целесообразно использовать обратные наименьшие квадраты (в которых регрессирует по y, а обратная оценка коэффициента для y используется в качестве оценки β ).xyyβ
  3. Если отношение дисперсии вертикальной ошибки к дисперсии горизонтальной ошибки равно отношению дисперсий зависимой и независимой переменных, мы имеем случай «диагональной» регрессии, при которой непротиворечивая оценка получается быть средним геометрическим из оценок OLS и обратных наименьших квадратов.
  4. Если отношение этих отклонений ошибок равно единице, то мы имеем случай «ортогональной» регрессии, при котором сумма квадратов ошибок, измеренных вдоль линии, перпендикулярной линии оценки, минимизируется. Это то, что вы имели в виду.

На практике большой недостаток этой процедуры заключается в том, что отношение отклонений ошибок обычно неизвестно и обычно не может быть оценено, поэтому путь вперед неясен.

Димитрий Васильевич Мастеров
источник
Я попытался отредактировать, чтобы изменить «зависимый» на «независимый» в первом предложении, но изменения должны быть 6 символов. Может быть, обновить ответ, чтобы исправить опечатку?
Райан Стаут
@RyanStout Спасибо, и готово. Я думаю, что вставка пробелов поможет вам в этом.
Дмитрий Владимирович Мастеров
Теперь я немного запутался: не являются ли вертикальные ошибки ошибками в зависимой переменной (y) и горизонтальными ошибками в независимой переменной (x)?
Райан Стаут
@RyanStout Я снова все испортил
Дмитрий В. Мастеров
9

i=1N(yihθ(xi))2
i=1Nminx,y[(yihθ(x))2+(xix)2]
hθ(x)
Moormanly
источник
Неплохо подмечено. Я думал о том, как перейти к вычислению функции стоимости в целом.
alpha_989
Я не обязательно уверен, как оценить расстояние между точкой и нелинейной плоскостью / поверхностью, но для оценки расстояния между точкой и линейной поверхностью / плоскостью нам может не потребоваться вложенная минимизация: mathinsight.org/distance_point_plane
alpha_989
Во-вторых, когда мы используем регрессию, наша цель состоит в том, чтобы оценить веса, чтобы найти лучшее соответствие. Из того, что я понимаю, во время фактических вычислений мы редко оцениваем функцию стоимости, но некоторую производную от функции стоимости?
alpha_989
1
@whuber. Понимаю. Как только мы установим эти значения для этих двух терминов, я согласен с тем, что решаемые проблемы различны (есть или нет вероятность ошибки в х). Я не думаю, что вы получите широкое согласие от знающих людей о значении этих терминов, но это побочный момент.
Стохастик
1
@Stochastic Я согласен, что понятие «подгонка кривой» может быть нечетким, но концепция регрессии, на которую я ссылаюсь, появляется в работах лучших авторитетов.
whuber
2

Упрощенная версия заключается в том, что предполагается, что X не содержит ошибок. Так, если вы посмотрите на точку E на вашем графике, например, предполагается, что ее координата X является точно точной. Как правило, это тот случай, когда мы можем управлять X, другими словами, когда мы можем установить для него определенное значение. В этом случае единственная ошибка, которая может существовать, - это направление Y, и поэтому функция ошибки / стоимости включает только направление Y.

Когда это не так, когда мы не контролируем X и X может иметь ошибку, люди включают направление X в функцию ошибки в нечто, называемое регрессией типа II или модели II, и ее варианты. Это может быть сложно сделать, если X и Y имеют разные масштабы, поэтому вам нужно подумать о нормализации и тому подобное.

CHP
источник
1

Риск быть прозаическим, причина функции ошибки состоит в том, что стандартная интерпретация состоит в том, что x дано, и каждый пытается лучше всего описать (или предсказать) компонент y. Так что нет ошибки в «х». Например, вы можете попытаться понять (или предсказать) цену закрытия акции завтра на основе сегодняшней цены закрытия. Точно так же можно попытаться понять среднюю температуру завтра с точки зрения сегодняшней средней температуры. Очевидно, что эти примеры просты, но это идея. Между прочим, кое-что, что большинство людей не осознают, но я думаю, из ваших примеров ясно, что если регрессировать y против x, линия регрессии не должна иметь какого-либо особого сходства с регрессией x против y. Ортогональная регрессия - это термин для регрессии, где пытаются найти линию, которая минимизирует расстояние точек от линии. Например, если кто-то пытается понять взаимосвязь между ценой акций IBM и ценой акций AAPL, это будет подходящий метод.

Мех
источник
1

Вы правы в том, что при подгонке линии через точки ортогональное расстояние является наиболее естественной функцией потерь, которую можно применить к произвольным линиям (обратите внимание, что расстояние по оси y становится бессмысленным для линий, перпендикулярных оси x). Эта проблема известна под несколькими названиями, например, «ортогональная регрессия» или (наиболее часто используемый термин AFAIK) «Анализ основных компонентов» (PCA). Для обсуждения этой проблемы в произвольных измерениях см.

Спет: «Ортогональные наименьшие квадраты, подходящие к линейным многообразиям». Numerische Mathematik 48, стр. 441–445, 1986

Как уже указывал @aginensky, идея линейной регрессии состоит не в том, чтобы подогнать линию через точки, а в том, чтобы предсказать значения y для заданных значений x. Вот почему используется только расстояние по y, что является точностью прогноза.

x(t)pii=1Nt

Ван, Поттман, Лю: «Подгонка кривых B-сплайна к точечным облакам путем минимизации квадрата расстояния на основе кривизны». Транзакции ACM на графике 25.2, с. 214-238, 2006

cdalitz
источник