Как выбрать размеры набора для обучения, перекрестной проверки и тестирования для данных небольшого размера?

10

Предположим, у меня небольшой размер выборки, например, N = 100, и два класса. Как выбрать размеры обучения, перекрестной проверки и тестового набора для машинного обучения?

Я бы интуитивно выбрал

  • Размер тренировочного набора 50
  • Размер набора для перекрестной проверки 25, и
  • Размер теста как 25.

Но, вероятно, это имеет более или менее смысл. Как мне действительно определить эти значения? Могу ли я попробовать другие варианты (хотя я думаю, что это не так предпочтительнее ... повышенная вероятность переучивания)?

Что если бы у меня было больше двух классов?

стандартное восточное время
источник
2
100 слишком мало для меня. Я бы выбрал стратегию «один на один» для перекрестной проверки и оценки теста.
апреля 14:00
Я не видел литературы по этому вопросу (минимальный размер выборки для проверки). Не уверен почему. Похоже, важная проблема.
Чарльз

Ответы:

15
cbeleites недоволен SX
источник
+1 исключительно за советы по оптимизации параметров и сложности модели. но все эти советы фантастические.
Чарльз
1

Учитывая, что размер вашей выборки невелик, хорошей практикой будет исключить раздел перекрестной проверки и использовать соотношение 60–40 или 70–30.

Как вы можете видеть в разделе 2.8 Введение в Clementine и Data Mining, а также в библиотеке MSDN - Data Mining - Обучающие и тестовые наборы, соотношение 70 - 30 является распространенным. В соответствии с лекциями Эндрю Нг «Машинное обучение» рекомендуется соотношение 60–20–20.

Надеюсь, я был полезным. Наилучшие пожелания.

mrdatamx
источник