Предположим, я обучил несколько моделей на тренировочном наборе, выбрал лучшую, используя набор перекрестной проверки, и измерил производительность на тестовом наборе. Так что теперь у меня есть одна последняя лучшая модель. Должен ли я переучивать его на всех имеющихся у меня данных или судовом решении, обученном только на тренировочном наборе? Если последнее, то почему?
ОБНОВЛЕНИЕ: Как отметил @ P.Windridge, доставка переобученной модели в основном означает доставку модели без проверки. Но мы можем сообщать о производительности тестового набора и после этого переучивать модель на полных данных, справедливо ожидая, что производительность будет лучше - потому что мы используем нашу лучшую модель и больше данных. Какие проблемы могут возникнуть из-за такой методологии?
Ответы:
Вы почти всегда получите лучшую модель после переоборудования на весь образец. Но, как говорили другие, у вас нет подтверждения. Это фундаментальный недостаток в подходе разделения данных. Мало того, что данные разделяют упущенную возможность напрямую моделировать различия выборки в общей модели, но это нестабильно, если ваша целая выборка, возможно, не превышает 15 000 субъектов. Вот почему необходимо 100 повторов 10-кратной перекрестной проверки (в зависимости от размера выборки) для достижения точности и стабильности, и поэтому начальная загрузка для строгой внутренней проверки еще лучше. Бутстрап также показывает, насколько трудной и произвольной является задача выбора функции.
Я описал проблемы с «внешней» валидацией более подробно в разделе «Биостатистика в разделе биомедицинских исследований» 10.11.
источник
Вам не нужно переучиваться снова. Когда вы сообщаете о своих результатах, вы всегда сообщаете о результатах тестовых данных, потому что они дают гораздо лучшее понимание. По набору тестовых данных мы можем более точно увидеть, насколько хорошо модель может работать с данными вне выборки.
источник