Использование регрессионной модели для прогнозирования: когда остановиться?

9

Я рассчитал простую модель линейной регрессии из моих экспериментальных мер, чтобы делать прогнозы. Я прочитал, что вы не должны рассчитывать прогнозы для точек, которые слишком далеко от доступных данных. Однако я не смог найти каких-либо указаний, которые бы помогли мне понять, как далеко я могу экстраполировать. Например, если я вычислю скорость чтения для диска размером 50 ГБ, я думаю, что результат будет близок к реальности. Как насчет диска размером 100 ГБ, 500 ГБ? Как узнать, близки ли мои прогнозы к реальности?

Детали моего эксперимента:

Я измеряю скорость чтения программного обеспечения, используя другой размер диска. До сих пор я измерял это с 5 ГБ до 30 ГБ, увеличивая размер диска на 5 ГБ между экспериментами (всего 6 тактов).

Мои результаты линейны, а стандартные ошибки малы, на мой взгляд.

Flanfl
источник
2
Я думаю, что для того, чтобы получить полезные ответы, вам нужно значительно расширить и уточнить ваше второе предложение.
rolando2
rolando2 прав. Что вы имеете в виду "слишком много предсказаний"?
Дэвид Робинсон
Я не могу найти точные термины, которые были использованы в документе, который я прочитал. Идея "слишком далека от моих первоначальных мер". Поэтому я замерял скорость чтения с диска 30 ГБ. Если я прогнозирую скорость чтения для диска объемом 100 ГБ, это «слишком далеко»?
Фланфл
Ответа Ганга достаточно для описания проблем. Еще одна вещь, которая может помочь в вашем конкретном случае, - это рассмотреть физический процесс, связанный с чтением программного обеспечения. Какие операции необходимо выполнить? программное обеспечение должно организовать или отсортировать диск как часть процесса чтения? эти вопросы помогут обеспечить некоторые основания для предположения о линейности
вероятностное

Ответы:

19

Вы ищете термин «экстраполяция». Проблема в том, что независимо от того, сколько у вас данных и сколько промежуточных уровней у вас между конечными точками на размере диска (то есть между 5 и 30), всегда возможно, что в истинной базовой функции есть некоторая степень кривизны , что вы просто не можете обнаружить. В результате, когда вы экстраполируете далеко от конечной точки, то, что было небольшой степенью кривизны, увеличивается, в результате чего истинная функция перемещается все дальше и дальше от вашей линии соответствия. Другая возможность состоит в том, что истинная функция действительно идеально прямая в пределах исследуемого диапазона, но, возможно, существует точка изменения на некотором расстоянии от конечной точки в вашем исследовании. Такие вещи невозможно исключить; вопрос в том, насколько они вероятны и насколько неточными будут ваши прогнозы, если они окажутся реальными? Я не знаю, как дать аналитический ответ на эти вопросы. Я догадываюсь, что 500 - это очень долгий путь, когда исследуемый диапазон был [5, 30], но нет никаких оснований полагать, что мои догадки более ценны, чем ваши. Стандартные формулы для вычисления интервалов прогнозирования покажут вам расширяющийся интервал по мере удаления от , посмотреть, как выглядит этот интервал, может быть полезно. Тем не менее, вам нужно иметь в виду, что вы делаете теоретическое предположение, что линия действительно совершенно прямая и остается такой вплоть до значенияx,которое вы будете использовать для прогноза. Законность этого прогноза зависит как от данных и соответствия, так и от этого предположения. Икс¯Икс

Gung - Восстановить Монику
источник
2
Полностью согласен (+1). Ответ на этот вопрос не может быть строго статистическим. Разговор с инженером-программистом и компьютерщиком был бы уместен здесь!
Доминик Комтуа
Спасибо за ответ, это действительно полезно. Я самоучка, поэтому мне не хватает базовых знаний (например, знания словарного запаса).
Фланфл
Не может ли инверсия ширины доверительного интервала считаться неким показателем «силы» прогнозирования? Очевидно, вы должны были бы выбрать некоторые произвольные значения, чтобы использовать это ..
naught101
2
@ naught101, если вы хотите предположить, что линия регрессии совершенно прямая, то ширина интервала прогнозирования может рассматриваться как мера силы прогнозирования (с более широкими интервалами, указывающими на более слабые прогнозы), но это все же зависит от этого предположения.
gung - Восстановить Монику
7

Позвольте мне добавить несколько моментов к отличному ответу @ gung:

  • В зависимости от вашей области могут быть соответствующие нормы (как в DIN / EN или ISO). Вероятно, это не проблема прогнозирования скорости чтения с жесткого диска, но, например, в аналитической химии это правило не экстраполяция . Период. Если вы хотите пойти до 500 ГБ, то сделайте несколько измерений, включая 500 ГБ.

  • Обычный способ настройки линейной модели имеет два важных предположения

    • Очевидно, что функция линейна. На практике обычно не очень хорошее предположение, что линейность распространяется на бесконечность. Например, можно ли ожидать, что вы все равно найдете линейность, если читаете больше, чем объем жесткого диска?

    • Икс

  • Даже если эти предположения будут выполнены, подумайте, насколько велик интервал прогнозирования для такой экстраполяции:

    диапазон калибровки лм лм экстраполяция


    ИксT

cbeleites недоволен SX
источник
1
+1, в частности, предположение о гомоскедастичности является хорошим дополнением к обсуждению здесь. (Небольшая заметка под «Точкой». Вы подразумеваете « Период» как способ подчеркнуть окончательность правила, изложенного в предыдущем предложении?)
gung - Восстановить Монику
@ Gung: Если точка - это слово, то это то, что я имею в виду :-) спасибо.
cbeleites недоволен SX
2
Вызов точки «точка» действительно используется только в компьютерной терминологии и особенно для URL-адресов (например, «stats dot stackexchange dot com»). Это довольно новое использование на английском языке, вероятно, около 20 лет.
gung - Восстановить Монику
1
Спасибо за ваши дополнительные очки. Я закончил свою работу некоторое время назад, но я надеюсь, что оба ответа на этот вопрос помогут другим студентам!
Фланфль