Предположим, у меня небольшой размер выборки, например, N = 100, и два класса. Как выбрать размеры обучения, перекрестной проверки и тестового набора для машинного обучения?
Я бы интуитивно выбрал
- Размер тренировочного набора 50
- Размер набора для перекрестной проверки 25, и
- Размер теста как 25.
Но, вероятно, это имеет более или менее смысл. Как мне действительно определить эти значения? Могу ли я попробовать другие варианты (хотя я думаю, что это не так предпочтительнее ... повышенная вероятность переучивания)?
Что если бы у меня было больше двух классов?
machine-learning
sampling
svm
cross-validation
sample-size
стандартное восточное время
источник
источник
Ответы:
Вы наверняка нашли очень похожий вопрос: Выбор К в К-кратной перекрестной проверке ?
(Включая ссылку на работу Рона Кохави)
Интересно, что при этих проблемах классификации с очень малым размером выборки проверка часто оказывается более сложной (с точки зрения потребностей в размере выборки) по сравнению с обучением достойной модели. Если вам нужна литература по этому вопросу, см., Например, нашу статью о планировании размера выборки:
Beleites, C. and Neugebauer, U. и Bocklitz, T. и Krafft, C. и Popp, J .: Планирование размера выборки для классификационных моделей. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
принята рукопись на arXiv: 1211.1323
Другим важным моментом является хорошее использование возможности повторять / повторять перекрестную проверку (что является одной из причин против LOO): это позволяет вам измерить устойчивость предсказаний относительно возмущений (то есть несколько разных случаев) обучения данные.
Литература:
DOI: 10.1007 / s00216-007-1818-6
DOI: 10.1016 / j.chemolab.2009.07.016
Если вы решите за один прогон тестового набора (без итераций / повторений),
источник
Учитывая, что размер вашей выборки невелик, хорошей практикой будет исключить раздел перекрестной проверки и использовать соотношение 60–40 или 70–30.
Как вы можете видеть в разделе 2.8 Введение в Clementine и Data Mining, а также в библиотеке MSDN - Data Mining - Обучающие и тестовые наборы, соотношение 70 - 30 является распространенным. В соответствии с лекциями Эндрю Нг «Машинное обучение» рекомендуется соотношение 60–20–20.
Надеюсь, я был полезным. Наилучшие пожелания.
источник