При разделении моих помеченных данных на обучающие, проверочные и тестовые наборы я слышал все от 50/25/25 до 85/5/10. Я уверен, что это зависит от того, как вы собираетесь использовать свою модель и насколько склонен к переоснащению вашего алгоритма обучения. Есть ли способ решить или все по эмпирическому правилу? Даже ELSII кажется расплывчатым по этому вопросу.
machine-learning
cross-validation
Эд Файн
источник
источник
Ответы:
источник
В зависимости от приложения, вы можете пропустить неопределенность и вместо этого использовать начальную загрузку.
Вики: http://en.wikipedia.org/wiki/Bootstrapping_(statistics)
Связанный вопрос здесь. Понимание начальной загрузки для проверки и выбора модели
источник
Конечно, вы также должны принять решение о коэффициентах разделения для (двойной) повторной выборки ...
Однако повторная выборка обычно работает для довольно широкого диапазона коэффициентов разделения, если вы помните
Что вы можете сделать, если вы не уверены, нужна ли повторная выборка: выполните повторную выборку несколько раз. Достаточно, чтобы вы могли измерить, была ли необходима повторная выборка.
Получив эти результаты, вы можете решить, следует ли добавлять дополнительные итерации повторной выборки или все в порядке.
источник
Для этого не существует жесткого и быстрого правила. Но эмпирический анализ показал, что чем больше у вас тренировочных данных, тем выше будет ваша точность. Но что бы вы ни делали, не забывайте собирать все свои данные обучения / проверки / тестирования и делать 10-кратное резюме, когда вы заканчиваете. Это дает очень хорошее представление о наличии проблем с недостаточным или недостаточным количеством во время эксперимента.
источник
Я думаю, что все имеет значение, на какие вопросы вы пытаетесь ответить. Вас интересует точное представление о разнице в производительности между несколькими алгоритмами? Тогда вам нужен довольно большой набор проверки. Вас интересует, насколько хорошо алгоритм работает для N = 10000 выборок? Затем вы должны положить как минимум 10000 образцов в состав поезда.
Больший набор проверок дает вам больше статистической достоверности ваших результатов, но определенность касается производительности алгоритма, который был обучен на меньшем количестве выборок, что может не соответствовать вашим ожиданиям в конце.
источник