Предоставил размер выборки «N», который я планирую использовать для прогнозирования данных. Каковы некоторые из способов подразделить данные так, чтобы я использовал некоторые из них для установления модели, а остальные данные для проверки модели?
Я знаю, что нет черно-белого ответа на этот вопрос, но было бы интересно узнать некоторые «практические правила» или обычно используемые соотношения. Я знаю, еще в университете, один из наших профессоров говорил модель на 60% и подтверждал на 40%.
источник
Это действительно зависит от количества данных, которые вы имеете, от конкретной стоимости методов и от того, насколько точно вы хотите, чтобы ваш результат был.
Некоторые примеры:
Если у вас мало данных, вы, вероятно, захотите использовать перекрестную проверку (k-fold, left-one-out и т. Д.). Ваша модель, скорее всего, не займет много ресурсов для обучения и тестирования в любом случае. Это хорошие способы получить максимальную отдачу от ваших данных
У вас много данных: вы, вероятно, захотите пройти достаточно большой набор тестов, гарантируя, что маловероятно, что некоторые странные выборки сильно изменят ваши результаты. Сколько данных вы должны взять? Это полностью зависит от ваших данных и модели. Например, при распознавании речи, если вы взяли бы слишком много данных (скажем, 3000 предложений), ваши эксперименты заняли бы дни, так как в реальном времени обычно используется коэффициент 7-10. Если вы берете слишком мало, это слишком сильно зависит от выбранных вами динамиков (которые не разрешены в тренировочном наборе).
Помните также, что во многих случаях полезно иметь набор валидации / разработки!
источник
Соотношение 1:10 тест: поезд популярно, потому что оно выглядит круглым, 1: 9 популярно из-за 10-кратного CV, 1: 2 популярно, потому что оно также круглое и собирает начальную загрузку. Иногда можно пройти тест по определенным критериям данных, например, в прошлом году для тестирования, за годы до обучения.
Общее правило таково: поезд должен быть достаточно большим, чтобы точность не падала значительно, а тест должен быть достаточно большим, чтобы заглушить случайные колебания.
Тем не менее, я предпочитаю CV, так как он дает вам также распространение ошибок.
источник
В качестве дополнения к k-кратному ответу «обычный» выбор k либо 5, либо 10. Метод «оставь один» имеет тенденцию создавать слишком консервативные модели. К вашему сведению, вот ссылка на этот факт:
Shao, J. (1993), Линейный выбор модели путем перекрестной проверки, Журнал Американской статистической ассоциации, Vol. 88, № 422, с. 486-494
источник