Как вы решаете, каков ваш процент обучения, валидации и тестирования?

10

При разделении моих помеченных данных на обучающие, проверочные и тестовые наборы я слышал все от 50/25/25 до 85/5/10. Я уверен, что это зависит от того, как вы собираетесь использовать свою модель и насколько склонен к переоснащению вашего алгоритма обучения. Есть ли способ решить или все по эмпирическому правилу? Даже ELSII кажется расплывчатым по этому вопросу.

Эд Файн
источник
В этом Q & A Stackoverflow есть два хороших ответа по теме с> 30 ответами каждый. stackoverflow.com/questions/13610074/…
Люк

Ответы:

13

N>20000

Фрэнк Харрелл
источник
А что, если вы работаете с данными более крупного масштаба (но не с большими) с 10000 <N <1000000? В этот момент разделение кажется разумным. Это подходит для многих, но не для всех ситуаций, с которыми я сталкиваюсь.
Эд Файн
Это может быть вполне разумно.
Фрэнк Харрелл
У меня N = 95 000 000 (протяженность набора 9 500 000). Где ссылка, которая говорит мне, что мне не нужно повторять свой эксперимент 10 раз?
dranxo
2
Просто бегите дважды (2 разбивки), и вы увидите, насколько разные результаты. Они, вероятно, настолько мало различаются, что вам нужен только один сплит. Подумайте о ширине доверительного интервала для пропорции с таким большим размером выборки.
Фрэнк Харрелл
3

Конечно, вы также должны принять решение о коэффициентах разделения для (двойной) повторной выборки ...

Однако повторная выборка обычно работает для довольно широкого диапазона коэффициентов разделения, если вы помните

  • не делать упущения, если это уменьшит количество возможных отдельных прогонов
  • оставьте достаточное количество обучающих примеров в самом внутреннем обучающем наборе, чтобы у алгоритма обучения была хорошая возможность создать полезную модель.
  • чем больше у вас независимых дел, тем менее важны эти соображения.

А что, если вы работаете с данными более крупного масштаба (но не с большими) с 10000 <N <1000000?

Что вы можете сделать, если вы не уверены, нужна ли повторная выборка: выполните повторную выборку несколько раз. Достаточно, чтобы вы могли измерить, была ли необходима повторная выборка.

  • проверьте стабильность ваших прогнозов
  • проверьте стабильность параметров вашей модели

Получив эти результаты, вы можете решить, следует ли добавлять дополнительные итерации повторной выборки или все в порядке.

cbeleites недоволен SX
источник
2

Для этого не существует жесткого и быстрого правила. Но эмпирический анализ показал, что чем больше у вас тренировочных данных, тем выше будет ваша точность. Но что бы вы ни делали, не забывайте собирать все свои данные обучения / проверки / тестирования и делать 10-кратное резюме, когда вы заканчиваете. Это дает очень хорошее представление о наличии проблем с недостаточным или недостаточным количеством во время эксперимента.

Рушди Шамс
источник
1

Я думаю, что все имеет значение, на какие вопросы вы пытаетесь ответить. Вас интересует точное представление о разнице в производительности между несколькими алгоритмами? Тогда вам нужен довольно большой набор проверки. Вас интересует, насколько хорошо алгоритм работает для N = 10000 выборок? Затем вы должны положить как минимум 10000 образцов в состав поезда.

Больший набор проверок дает вам больше статистической достоверности ваших результатов, но определенность касается производительности алгоритма, который был обучен на меньшем количестве выборок, что может не соответствовать вашим ожиданиям в конце.

Номер
источник