Должна ли окончательная (готовая к производству) модель обучаться на полных данных или только на тренировочном наборе?

Предположим, я обучил несколько моделей на тренировочном наборе, выбрал лучшую, используя набор перекрестной проверки, и измерил производительность на тестовом наборе. Так что теперь у меня есть одна последняя лучшая модель. Должен ли я переучивать его на всех имеющихся у меня данных или судовом решении, обученном только на тренировочном наборе? Если последнее, то почему?

ОБНОВЛЕНИЕ: Как отметил @ P.Windridge, доставка переобученной модели в основном означает доставку модели без проверки. Но мы можем сообщать о производительности тестового набора и после этого переучивать модель на полных данных, справедливо ожидая, что производительность будет лучше - потому что мы используем нашу лучшую модель и больше данных. Какие проблемы могут возникнуть из-за такой методологии?

machine-learning validation regression-strategies Юрий
источник

Вы работаете в внешне регулируемой среде? (т.е., возможно, вы должны отправить проверенную модель, и ваш вопрос только гипотетический, но все равно стоит обсудить :)). Редактировать: хорошо, я вижу, вы редактировали свой пост.

П.Уиндридж

Считаете ли вы, что ваши тестовые данные являются репрезентативными для популяции / охватывают часть популяции, не входящую в выборку для разработчиков? Ваш первоначальный пример разработки в какой-то мере несовершенен?

П.Уиндридж

@ P.Windridge, мой вопрос только гипотетический. Что касается вашего второго комментария, я считаю, что никто не должен ожидать, что инженер обучит хорошую модель, предоставляя ему непредставительные данные.

Юрий

Я не могу представить много ситуаций, когда вы отправили бы модель без проверки. Я бы предпочел уменьшить размер тестового образца (при условии, что он все еще достаточно велик для проверки!). Возможно, более интересная дискуссия о плюсах / минусах / выборе / модели на основе / всех / данных, а затем обучении ее с использованием подвыборки и последующей проверке остальных.

П.Уиндридж

Подобный вопрос = stats.stackexchange.com/questions/174026/… , хотя я думаю, что это могло бы использовать больше обсуждения

P.Windridge

Ответы:

Вы почти всегда получите лучшую модель после переоборудования на весь образец. Но, как говорили другие, у вас нет подтверждения. Это фундаментальный недостаток в подходе разделения данных. Мало того, что данные разделяют упущенную возможность напрямую моделировать различия выборки в общей модели, но это нестабильно, если ваша целая выборка, возможно, не превышает 15 000 субъектов. Вот почему необходимо 100 повторов 10-кратной перекрестной проверки (в зависимости от размера выборки) для достижения точности и стабильности, и поэтому начальная загрузка для строгой внутренней проверки еще лучше. Бутстрап также показывает, насколько трудной и произвольной является задача выбора функции.

Я описал проблемы с «внешней» валидацией более подробно в разделе «Биостатистика в разделе биомедицинских исследований» 10.11.

Фрэнк Харрелл
источник

Терминология в моей области (аналитическая химия) будет рассматривать любое разделение данных, которые вы делаете в начале (до) начала обучения, как внутреннюю проверку. Внешняя проверка может начаться где-то между проведением специального исследования проверки и кольцевых испытаний.

cbeleites поддерживает Монику

Вам не нужно переучиваться снова. Когда вы сообщаете о своих результатах, вы всегда сообщаете о результатах тестовых данных, потому что они дают гораздо лучшее понимание. По набору тестовых данных мы можем более точно увидеть, насколько хорошо модель может работать с данными вне выборки.

Умар
источник

Мы можем сообщать о производительности тестового набора и после этого переучивать модель на полных данных, справедливо ожидая, что производительность будет лучше - потому что мы используем лучший режим плюс больше данных. Есть ли недостаток в моих рассуждениях?

Юрий

Хорошо, если после тестирования вы собираете больше данных, тогда вы можете повторно разделить данные, заново обучить их, затем повторно протестировать, а затем сообщить результат теста из повторного теста.

Умар

Не оценивая всю выборку, вы упускаете возможность более высокой эффективности. Это не оправдано. Я также согласен с комментарием Юрия выше.

Ричард Харди

@RichardHardy, что не так в моем комментарии?

Умар

Это прописано в моем последнем комментарии. Не используя все данные для оценки модели, вы получаете наивысшую доступную эффективность. Зачем это делать?

Ричард Харди