Я рассчитал простую модель линейной регрессии из моих экспериментальных мер, чтобы делать прогнозы. Я прочитал, что вы не должны рассчитывать прогнозы для точек, которые слишком далеко от доступных данных. Однако я не смог найти каких-либо указаний, которые бы помогли мне понять, как далеко я могу экстраполировать. Например, если я вычислю скорость чтения для диска размером 50 ГБ, я думаю, что результат будет близок к реальности. Как насчет диска размером 100 ГБ, 500 ГБ? Как узнать, близки ли мои прогнозы к реальности?
Детали моего эксперимента:
Я измеряю скорость чтения программного обеспечения, используя другой размер диска. До сих пор я измерял это с 5 ГБ до 30 ГБ, увеличивая размер диска на 5 ГБ между экспериментами (всего 6 тактов).
Мои результаты линейны, а стандартные ошибки малы, на мой взгляд.
источник
Ответы:
Вы ищете термин «экстраполяция». Проблема в том, что независимо от того, сколько у вас данных и сколько промежуточных уровней у вас между конечными точками на размере диска (то есть между 5 и 30), всегда возможно, что в истинной базовой функции есть некоторая степень кривизны , что вы просто не можете обнаружить. В результате, когда вы экстраполируете далеко от конечной точки, то, что было небольшой степенью кривизны, увеличивается, в результате чего истинная функция перемещается все дальше и дальше от вашей линии соответствия. Другая возможность состоит в том, что истинная функция действительно идеально прямая в пределах исследуемого диапазона, но, возможно, существует точка изменения на некотором расстоянии от конечной точки в вашем исследовании. Такие вещи невозможно исключить; вопрос в том, насколько они вероятны и насколько неточными будут ваши прогнозы, если они окажутся реальными? Я не знаю, как дать аналитический ответ на эти вопросы. Я догадываюсь, что 500 - это очень долгий путь, когда исследуемый диапазон был [5, 30], но нет никаких оснований полагать, что мои догадки более ценны, чем ваши. Стандартные формулы для вычисления интервалов прогнозирования покажут вам расширяющийся интервал по мере удаления от , посмотреть, как выглядит этот интервал, может быть полезно. Тем не менее, вам нужно иметь в виду, что вы делаете теоретическое предположение, что линия действительно совершенно прямая и остается такой вплоть до значенияx,которое вы будете использовать для прогноза. Законность этого прогноза зависит как от данных и соответствия, так и от этого предположения.Икс¯ Икс
источник
Позвольте мне добавить несколько моментов к отличному ответу @ gung:
В зависимости от вашей области могут быть соответствующие нормы (как в DIN / EN или ISO). Вероятно, это не проблема прогнозирования скорости чтения с жесткого диска, но, например, в аналитической химии это правило не экстраполяция . Период. Если вы хотите пойти до 500 ГБ, то сделайте несколько измерений, включая 500 ГБ.
Обычный способ настройки линейной модели имеет два важных предположения
Очевидно, что функция линейна. На практике обычно не очень хорошее предположение, что линейность распространяется на бесконечность. Например, можно ли ожидать, что вы все равно найдете линейность, если читаете больше, чем объем жесткого диска?
Даже если эти предположения будут выполнены, подумайте, насколько велик интервал прогнозирования для такой экстраполяции:
источник