Что вы думаете об использовании регрессии для проецирования за пределы диапазона данных? Если мы уверены, что она соответствует форме линейной или мощной модели, не может ли модель быть полезной за пределами диапазона данных? Например, у меня объем зависит от цены. Мы должны быть в состоянии прогнозировать цены вне диапазона данных, который я считаю. Твои мысли?
VOL PRICE
3044 4.97
2549 4.97
3131 4.98
2708 4.98
2860 4.98
2907 4.98
3107 4.98
3194 4.98
2753 4.98
3228 4.98
3019 4.98
3077 4.99
2597 4.99
2706 4.99
3000 4.99
3022 4.99
3084 4.99
3973 4.99
3675 4.99
3065 4.99
3407 4.99
2359 4.99
2802 4.99
2589 4.99
2476 4.99
2387 5
3265 5
2039 5.14
1842 5.15
2660 5.37
1796 5.46
1734 5.46
1881 5.46
2204 5.58
1477 5.77
1620 5.84
1909 5.87
1744 5.87
1247 5.87
1848 5.88
1641 5.88
1758 5.88
1718 5.88
1656 5.88
1822 5.88
1556 5.89
1643 5.9
1850 5.91
1901 5.91
1837 5.91
1773 5.92
1729 5.92
regression
dataset
linear-model
Джонсон Джейсон
источник
источник
Ответы:
Почти все ответы и комментарии предостерегают от опасностей экстраполяции. Я хотел бы предложить более формальный способ увидеть, является ли прогноз разумным. Метод основан на проекционной матрице на пространстве, охватываемом столбцами который мы принимаем за полный ранг, т.е. мы предполагаем, что пространство столбцов p-мерно. Как вы помните,Икс
Я не уверен, какое программное обеспечение вы используете, но почти все они вернут шляпную матрицу с правильной командой. Поэтому я предлагаю вам взглянуть, прежде чем принять решение.
источник
Ошибка предсказания увеличивается квадратично с расстоянием от среднего. Уравнение регрессии и результаты позволяют вам измерить величину ошибки в наблюдаемом диапазоне данных, и модель адекватна только в этом же диапазоне.
За пределами этого диапазона многое может произойти. Во-первых, прогноз все хуже и хуже из-за увеличения ошибки прогнозирования.
Во-вторых, модель может сломаться полностью. Самый простой способ убедиться в этом - попытаться спроектировать модель, связывающую цену со временем: вы не можете делать прогнозы для отрицательного времени.
В-третьих, линейные отношения могут быть неадекватными. В вашем примере почти наверняка есть эффект масштаба, который станет очень заметным, если вы попытаетесь предсказать далеко за пределы диапазона наблюдаемых значений.
Юмористический пример такого же эффекта появляется в одной из работ Марка Твена , где он пытается смоделировать длину реки Миссисипи с течением времени - она / была довольно ветреной и сокращается / сокращается каждый год из-за эрозии некоторых изгибов, а также искусственных сокращений - и «предсказывает», что через столько лет расстояние между Каиром, Иллинойсом и Новым Орлеаном сократится примерно до мили и трех четвертей).
Наконец, обратите внимание, что диапазон наблюдаемых значений может быть довольно сложным, если у вас есть более одной переменной-предиктора. (Из-за корреляции между предикторами вы часто не можете просто установить флажок, определенный максимумами и минимумами в каждом предикторе.)
источник
Вы не можете принимать решения на основе данных для областей, где у вас нет данных. Конец истории. Данные могут очень хорошо поддерживать линейную форму для диапазона, в котором собираются ваши данные, но у вас нет оснований для данных полагать, что эта форма продолжает оставаться линейной за пределами вашего диапазона. Это может быть любая форма под солнцем!
Вы можете предположить, что линейная форма продолжается за пределами вашего диапазона данных, но это субъективное предположение, которое не поддерживается данными, которые вы собрали. Я бы посоветовал проконсультироваться с экспертом в данной области, чтобы выяснить, насколько безопасно это предположение, исходя из его предметной специализации.
источник