Использование регрессии для проецирования за пределы диапазона данных, хорошо? никогда не хорошо? иногда хорошо?

10

Что вы думаете об использовании регрессии для проецирования за пределы диапазона данных? Если мы уверены, что она соответствует форме линейной или мощной модели, не может ли модель быть полезной за пределами диапазона данных? Например, у меня объем зависит от цены. Мы должны быть в состоянии прогнозировать цены вне диапазона данных, который я считаю. Твои мысли?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92
Джонсон Джейсон
источник
1
Зависит от того, насколько хорошо ваши предположения держатся за пределами диапазона данных. Предсказание для ненаблюдаемых - это единственная причина, по которой вы делаете регресс в первую очередь. YИкс
Бен
3
Даже если вы действительно, действительно, уверены, что линейные отношения продолжаются за пределами диапазона предикторов в вашей выборке из n наблюдений, в дисперсии предсказанного отклика для нового наблюдения есть термин - viz - это должно вас волновать. Икс1,...,ИксNNИкс*(Икс*-Икс¯)2ΣяN(Икся-Икс¯)2
Scortchi - Восстановить Монику
Бен, я склонен согласиться, разве не предсказать y для ненаблюдаемых X весь смысл? Иначе зачем вообще делать регресс? Может быть, установление предела того, насколько я позволю себе отойти от наблюдаемого диапазона данных, может быть ответственным. Конечно, 10% будут в безопасности .. нет?
Джонсон Джейсон
Мой любимый критерий в этой теме - bmj.com/content/317/7155/409 .
Карло Лаззаро
@ Бен, @ Джонсон - Возможно, обман. Существует еще одно использование для регрессии. Это может использоваться, чтобы объяснить, а не предсказать. Я думаю, особенно в общественных науках, это основное использование регрессии. Я прочитал много аргументов, таких как: Мы думаем, что (переменные) Результат эффекта B, мы запускаем регрессию, обнаруживаем, что 95% доверительный интервал коэффициента (ов) в A не содержит 0, и мы заключаем, что есть отношения формы A вызывают B. Между прочим, это не то, что я когда-либо делаю!
Мех

Ответы:

13

Почти все ответы и комментарии предостерегают от опасностей экстраполяции. Я хотел бы предложить более формальный способ увидеть, является ли прогноз разумным. Метод основан на проекционной матрице на пространстве, охватываемом столбцами который мы принимаем за полный ранг, т.е. мы предполагаем, что пространство столбцов p-мерно. Как вы помните,Икс

ЧАСзнак равноИкс(ИксTИкс)-1Икс

ЧАС0<ЧАСяя<1, язнак равно1,...,NЧАСяя

ЧАСNевес,Nевесзнак равноИксNевесT(ИксTИкс)-1ИксNевес

ЧАСNевес,Nевес

Я не уверен, какое программное обеспечение вы используете, но почти все они вернут шляпную матрицу с правильной командой. Поэтому я предлагаю вам взглянуть, прежде чем принять решение.

JohnK
источник
Молодец ДжонК, это очень полезно. К вашему сведению, я использую регрессию Excel.
Джонсон Джейсон
9

Ошибка предсказания увеличивается квадратично с расстоянием от среднего. Уравнение регрессии и результаты позволяют вам измерить величину ошибки в наблюдаемом диапазоне данных, и модель адекватна только в этом же диапазоне.

За пределами этого диапазона многое может произойти. Во-первых, прогноз все хуже и хуже из-за увеличения ошибки прогнозирования.

Во-вторых, модель может сломаться полностью. Самый простой способ убедиться в этом - попытаться спроектировать модель, связывающую цену со временем: вы не можете делать прогнозы для отрицательного времени.

В-третьих, линейные отношения могут быть неадекватными. В вашем примере почти наверняка есть эффект масштаба, который станет очень заметным, если вы попытаетесь предсказать далеко за пределы диапазона наблюдаемых значений.

Юмористический пример такого же эффекта появляется в одной из работ Марка Твена , где он пытается смоделировать длину реки Миссисипи с течением времени - она ​​/ была довольно ветреной и сокращается / сокращается каждый год из-за эрозии некоторых изгибов, а также искусственных сокращений - и «предсказывает», что через столько лет расстояние между Каиром, Иллинойсом и Новым Орлеаном сократится примерно до мили и трех четвертей).

Наконец, обратите внимание, что диапазон наблюдаемых значений может быть довольно сложным, если у вас есть более одной переменной-предиктора. (Из-за корреляции между предикторами вы часто не можете просто установить флажок, определенный максимумами и минимумами в каждом предикторе.)

user3697176
источник
1
(+1) Хотя сказать, что модель является адекватной только в диапазоне наблюдаемых данных, немного сильно - это то, что проблемы, которые вы описываете, становятся все более и более касающимися того, как далеко вы от них получаете.
Scortchi - Восстановить Монику
Так есть ли какие-нибудь решения относительно того, как далеко находится безопасное расстояние, чтобы отойти от наблюдаемого диапазона данных? Меньше чем 1 стандартное отклонение хорошо?
Джонсон Джейсон
1
@Scortchi. Дело принято. В большинстве ситуаций деградация модели происходит постепенно. Однако, изредка имеют жесткие границы, и пытаются выйти за пределы тех , собирается причинить горе.
user3697176
1
@JohnsonJason: нет смысла искать эмпирическое правило. Вы можете легко рассчитать интервалы прогнозирования, предполагая, что ваша модель может быть экстраполирована; степень, в которой вы можете доверять экстраполяции, зависит от знания предмета: то, что приемлемо, варьируется от случая к случаю.
Scortchi - Восстановить Монику
1
Отличные баллы (+1). Но в прогнозировании цены на отрицательное время нет логической проблемы. Реальная проблема в том, что вы прогнозируете отрицательную цену в течение определенного времени (обычно в прошлом, на практике). Часто это означает, что модель является качественно неправильной, поскольку экстраполяция слишком сильно растягивает линию (или кривую). Например, функция логарифмической связи всегда предполагает положительные прогнозы.
Ник Кокс
4

Вы не можете принимать решения на основе данных для областей, где у вас нет данных. Конец истории. Данные могут очень хорошо поддерживать линейную форму для диапазона, в котором собираются ваши данные, но у вас нет оснований для данных полагать, что эта форма продолжает оставаться линейной за пределами вашего диапазона. Это может быть любая форма под солнцем!

Вы можете предположить, что линейная форма продолжается за пределами вашего диапазона данных, но это субъективное предположение, которое не поддерживается данными, которые вы собрали. Я бы посоветовал проконсультироваться с экспертом в данной области, чтобы выяснить, насколько безопасно это предположение, исходя из его предметной специализации.

TrynnaDoStat
источник
2
Так какой смысл в действительности делать регрессию, если мы не можем предсказать Y для ненаблюдаемых X
Джонсон Джейсон
2
Я думаю, дело в том, что вы все еще можете прогнозировать внутри диапазона, просто нецелесообразно прогнозировать за пределами диапазона. Предположительно, большинство новых точек данных будут находиться в пределах диапазона, поэтому модель будет оставаться полезной в подавляющем большинстве случаев
Райан Зотти