У меня есть несколько прогностических моделей, производительность которых я хотел бы протестировать (например, взять мой набор данных, «перемотать» его к предыдущему моменту времени и посмотреть, как модель будет работать перспективно).
Проблема в том, что некоторые из моих моделей были созданы с помощью интерактивного процесса. Например, следуя совету в Стратегиях регрессионного моделирования Фрэнка Харрелла , в одной модели я использовал ограниченные кубические сплайны для обработки возможных нелинейных связей между объектами и ответом. Я выделил степени свободы каждого сплайна на основе комбинации знаний предметной области и одномерных мер силы ассоциации. Но степень свободы, которую я хочу разрешить моей модели, очевидно, зависит от размера набора данных, который резко меняется при тестировании на истории. Если я не хочу выбирать степени свободы отдельно для каждого случая, когда модель тестируется, каковы мои другие варианты?
В качестве другого примера, в настоящее время я работаю над обнаружением выбросов путем поиска точек с высоким кредитным плечом. Если бы я был счастлив сделать это вручную, я бы просто посмотрел на каждую точку данных с высоким левериджем, проверил, что данные были чистыми, и либо отфильтровал их, либо очистил вручную. Но это опирается на знания предметной области, поэтому я не знаю, как автоматизировать процесс.
Я был бы признателен за советы и решения как (а) общей проблемы автоматизации интерактивных частей процесса построения модели, так и (б) конкретных рекомендаций для этих двух случаев. Спасибо!
Вместо того, чтобы пытаться выяснить, как автоматизировать ваши ручные настройки модели, я бы обошел эту проблему все вместе, изучая учащихся с более низкой дисперсией, которые требуют гораздо меньших настроек, даже если это связано с некоторой ценой повышенного смещения модели. Вы хотите быть уверенными в результатах своего бэкстеста, что в значительной степени сводится к низкой дисперсии выборки в ваших прогнозах, и внедрение некоторого автоматизированного процесса настройки поверх учащегося, который уже имеет дисперсию выборки, само по себе работает для достижения этой цели. Может показаться, что хвост здесь виляет собакой, но все, что требует тщательной настройки (ручное или автоматическое), не является хорошим кандидатом для действительно честной тестовой среды IMO.
источник