Расчет соотношения выборочных данных, используемых для подбора модели / обучения и проверки

9

Предоставил размер выборки «N», который я планирую использовать для прогнозирования данных. Каковы некоторые из способов подразделить данные так, чтобы я использовал некоторые из них для установления модели, а остальные данные для проверки модели?

Я знаю, что нет черно-белого ответа на этот вопрос, но было бы интересно узнать некоторые «практические правила» или обычно используемые соотношения. Я знаю, еще в университете, один из наших профессоров говорил модель на 60% и подтверждал на 40%.

dassouki
источник

Ответы:

7

Ну, как вы сказали, нет черно-белого ответа. Обычно я не делю данные на 2 части, а использую методы, такие как перекрестная проверка в k-кратном порядке.

При перекрестной проверке в k-кратном порядке вы делите свои данные случайным образом на k частей, подгоняете модель к k-1 частям и проверяете ошибки в левой части. Вы повторяете этот процесс k раз, оставляя каждую часть из подгонки одну за другой. Вы можете принять среднюю ошибку от каждой из k итераций как указание на ошибку модели. Это работает очень хорошо, если вы хотите сравнить предсказательную силу разных моделей.

Одной из крайних форм перекрестной проверки в k-кратном виде является обобщенная перекрестная проверка, когда вы просто оставляете одну точку данных для тестирования и подгоняете модель ко всем остальным точкам. Затем повторите процесс n раз, пропуская каждую точку данных одну за другой. Я обычно предпочитаю перекрестную проверку в k-кратном порядке по сравнению с общей перекрестной проверкой ... просто личный выбор

Shrey
источник
2
Резюме использует полный набор для выбора модели, а? Это распространенная ошибка (до сих пор даже Википедия упоминает об этом), потому что это скрытый наряд. Вам нужно сделать резюме более высокого уровня или оставить тест, чтобы сделать это правильно.
5

Это действительно зависит от количества данных, которые вы имеете, от конкретной стоимости методов и от того, насколько точно вы хотите, чтобы ваш результат был.

Некоторые примеры:

Если у вас мало данных, вы, вероятно, захотите использовать перекрестную проверку (k-fold, left-one-out и т. Д.). Ваша модель, скорее всего, не займет много ресурсов для обучения и тестирования в любом случае. Это хорошие способы получить максимальную отдачу от ваших данных

У вас много данных: вы, вероятно, захотите пройти достаточно большой набор тестов, гарантируя, что маловероятно, что некоторые странные выборки сильно изменят ваши результаты. Сколько данных вы должны взять? Это полностью зависит от ваших данных и модели. Например, при распознавании речи, если вы взяли бы слишком много данных (скажем, 3000 предложений), ваши эксперименты заняли бы дни, так как в реальном времени обычно используется коэффициент 7-10. Если вы берете слишком мало, это слишком сильно зависит от выбранных вами динамиков (которые не разрешены в тренировочном наборе).

Помните также, что во многих случаях полезно иметь набор валидации / разработки!

Питер Смит
источник
5

Соотношение 1:10 тест: поезд популярно, потому что оно выглядит круглым, 1: 9 популярно из-за 10-кратного CV, 1: 2 популярно, потому что оно также круглое и собирает начальную загрузку. Иногда можно пройти тест по определенным критериям данных, например, в прошлом году для тестирования, за годы до обучения.

Общее правило таково: поезд должен быть достаточно большим, чтобы точность не падала значительно, а тест должен быть достаточно большим, чтобы заглушить случайные колебания.

Тем не менее, я предпочитаю CV, так как он дает вам также распространение ошибок.


источник
4

В качестве дополнения к k-кратному ответу «обычный» выбор k либо 5, либо 10. Метод «оставь один» имеет тенденцию создавать слишком консервативные модели. К вашему сведению, вот ссылка на этот факт:

Shao, J. (1993), Линейный выбор модели путем перекрестной проверки, Журнал Американской статистической ассоциации, Vol. 88, № 422, с. 486-494

Albort
источник
Вы даже читали эту статью? Тем не менее, это работает только для линейных моделей (даже название показывает это!), Это об асимптотическом поведении для бесконечного числа объектов. 100 - это мало.
1
И я желаю вам удачи в 10-кратной перекрестной проверке на съемочной площадке с 9 объектами.
@mbq: я говорю «обычный» выбор. Не означает каждый выбор
Albort
@mbq: я прочитал газету; Шао сообщает об имитационном исследовании всего с 40 наблюдениями и показывает, что LOOCV не соответствует CV Монте-Карло, за исключением случая, когда не выбран подвыбор (полный набор функций является оптимальным). 100 более чем достаточно, по крайней мере, для выбора подмножеств в линейных моделях.
Шаббычеф
@shabbychef Ты меня здесь; Второй аргумент в моем первом комментарии - это, конечно, мусор, я имел в виду некоторые другие работы и переобобщён. Тем не менее, я все еще буду утверждать, что статья Шао не является хорошим справочным материалом для общего «LOO терпит неудачу для большого N», поскольку его область действия сводится к линейным моделям.