Корректировки прогноза (линейная регрессия)

11

Полное раскрытие: я не статистик и не претендую на это. Я скромный ИТ-администратор. Пожалуйста, играйте осторожно со мной. :)

Я отвечаю за сбор и прогнозирование использования дискового пространства для нашего предприятия. Мы собираем данные об использовании хранилища ежемесячно и используем простую скользящую двенадцатимесячную линейную регрессию для прогнозов (другими словами, при составлении прогноза учитываются только данные за предыдущие двенадцать месяцев). Мы используем эту информацию для распределения и планирования капитальных затрат, например: «На основе этой модели нам потребуется приобрести x сумму, если хранение в y месяцах соответствует нашим потребностям». Все это работает достаточно хорошо, чтобы удовлетворить наши потребности.

Периодически мы имеем большие одноразовые движения в наших числах, которые отклоняют прогнозирование. Например, кто-то находит 500 ГБ старых резервных копий, которые больше не нужны, и удаляет их. Хорошо для них, чтобы восстановить пространство! Однако наши прогнозы теперь искажены этим большим падением за один месяц. Мы всегда просто соглашались с тем, что подобное падение занимает 9-10 месяцев, чтобы выйти из моделей, но это может быть очень долго, если мы вступаем в сезон планирования капитальных затрат.

Мне интересно, есть ли способ справиться с этими одноразовыми отклонениями так, чтобы на прогнозируемые значения не оказывалось такого большого влияния (например, наклон линии не меняется так резко), но они учитываются (например, однократное изменение значения y, связанного с конкретным моментом времени). Наши первые попытки решить эту проблему дали некоторые ужасные результаты (например, экспоненциальные кривые роста). Мы выполняем всю нашу обработку в SQL Server, если это имеет значение.

sbrown
источник
Отличный вопрос. Просто быстрое разъяснение. Хотите ли вы предсказать эти события или, если они произойдут, скорректировать модельные прогнозы с учетом вашей новой информации?
Мэтью Друри
1
Правильно, не ясно, пытаетесь ли вы «сгладить» эти редкие события, такие как пример 500 ГБ, чтобы они не влияли на ваши результаты так сильно, или если вы пытаетесь учесть их больше, так как вы хотите получить данные для сохранения настроек суки. сделаны? Разница тонкая: во-первых, вы хотите почти игнорировать новую точку (редкое событие), но во-вторых, вы хотите подчеркнуть точку (редкое событие). Если это первое, устойчивая регрессия, вероятно, является простым методом для вас, поскольку вы уже используете линейную регрессию. Смотрите здесь: ats.ucla.edu/stat/r/dae/rreg.htm
StatsStudent
Кроме того, используете ли вы какое-либо программное обеспечение для своих прогнозов и используете ли вы доверительные интервалы?
StatsStudent
Я могу добавить корректировку по факту. На самом деле, большую часть времени я не буду знать о значительном отклонении, пока не посмотрю на цифры следующего месяца и не увижу большие изменения. Я не использую какое-либо программное обеспечение, чтобы делать прогнозы; просто хранимая процедура в SQL Server для вычисления моих значений регрессии.
sbrown
Быстрые реакции: (a) Я бы, вероятно, сначала приспособил очень простой AR (1) к изменениям в использовании диска журнала? Вы в основном оценили бы некоторый долгосрочный темп роста использования диска, и насколько быстро темп роста использования диска возвращается к этой тенденции после шока. (аа) Вы также можете использовать другие данные и установить VAR (векторную авторегрессию). (б) выбрасывание всех данных> 12 месяцев не может быть оптимальным решением. (в) регулярный МНК минимизирует сумму квадратов. Вы можете использовать другую функцию штрафа (например, Huber), которая более устойчива к выбросам.
Мэтью Ганн

Ответы:

0

Вот простое предложение. Я не знаю, работает ли это для вас, и, возможно, я должен был сделать это как комментарий, но, похоже, вам нужно больше привилегий, чтобы комментировать, чем делать ответ.

Если я правильно понимаю, цифры, которые вы используете, представляют собой объемы памяти, которые вы используете каждый месяц. Вероятно, они обычно увеличиваются, и вы хотите предсказать, какой будет сумма в будущем, если тенденции сохранятся. Как только вы поймете, что произошли ваши большие изменения (например, было выпущено 500 ГБ), можете ли вы вернуться и изменить данные предыдущих месяцев (например, удалить из них 500 ГБ)? По сути, то, что вы будете делать, - это скорректировать цифры предыдущих месяцев на то, какими они должны были быть, если бы вы знали тогда, что вы знаете сейчас.

Конечно, я не рекомендую это, если вы не уверены, что можете вернуться к старым цифрам. Но прогнозирование, которое вы хотите сделать, звучит так, как будто это можно сделать в Excel, и в этом случае вы можете иметь столько версий, сколько захотите.

MikeG
источник