Помимо соображений вычислительной мощности, есть ли основания полагать, что увеличение количества сгибов при перекрестной проверке приводит к лучшему выбору / проверке модели (т. Е. Чем больше сгибов, тем лучше)?
Если доводить аргумент до крайности, обязательно ли перекрестная проверка по принципу « один-за-один» обязательно приведет к лучшим моделям, чем перекрестная проверка по кратному критерию?
Немного предыстории по этому вопросу: я работаю над проблемой с очень небольшим числом случаев (например, 10 положительных и 10 отрицательных) и боюсь, что мои модели могут плохо обобщать / будут переизбытки с таким небольшим количеством данных.
cross-validation
bias-variance-tradeoff
Амелио Васкес-Рейна
источник
источник
Ответы:
Перекрестная проверка с опущением один раз, как правило, не приводит к лучшей производительности, чем K-кратная, и, скорее всего, будет хуже , поскольку она имеет относительно высокую дисперсию (т. Е. Ее значение изменяется для разных выборок данных больше, чем значение для k-кратная перекрестная проверка). Это плохо в критерии выбора модели, так как это означает, что критерий выбора модели можно оптимизировать способами, которые просто используют случайное отклонение в конкретной выборке данных, а не вносят подлинные улучшения в производительность, т.е. критерий выбора модели. Причина, по которой перекрестная проверка по принципу «один-один-один» используется на практике, заключается в том, что для многих моделей она может быть оценена очень дешево как побочный продукт подбора модели.
Если вычислительные затраты не являются в первую очередь проблемой, лучшим подходом является выполнение повторной перекрестной проверки в k-кратном порядке, где процедура перекрестной проверки в k-кратном режиме повторяется с различными случайными разбиениями на k непересекающихся подмножеств каждый раз. Это уменьшает дисперсию.
Если у вас есть только 20 шаблонов, очень вероятно, что вы столкнетесь с чрезмерным соответствием критерию выбора модели, который представляет собой заброшенную ловушку в статистике и машинном обучении (бесстыдный плагин: см. Мою статью по теме). Возможно, вам будет лучше выбрать относительно простую модель и постараться не очень агрессивно ее оптимизировать, либо использовать байесовский подход и усреднить все варианты моделей, взвешенные по их вероятности. ИМХО оптимизация - корень всего зла в статистике, поэтому лучше не оптимизировать, если вам это не нужно, и оптимизировать с осторожностью, когда вы это делаете.
Также обратите внимание, что если вы собираетесь выполнять выбор модели, вам нужно использовать что-то вроде вложенной перекрестной проверки, если вам также нужна оценка производительности (т.е. вы должны рассматривать выбор модели как неотъемлемую часть процедуры подбора модели и перекрестной проверки, что также).
источник
Выбор числа K сгибов с учетом кривой обучения
Интуитивная визуализация на примере игрушек
Чтобы понять этот аргумент визуально, рассмотрим следующий игрушечный пример, где мы подгоняем полином 4 степени к шумовой синусоиде:
Обсуждать аргумент
Производительность модели значительно улучшается при увеличении размера тренировки до 50 наблюдений. Например, увеличение числа до 200 приносит лишь небольшие выгоды. Рассмотрим следующие два случая:
[Обновление] - Комментарии по методологии
Вы можете найти код для этой симуляции здесь . Подход был следующий:
Альтернативный подход состоит в том, чтобы не повторять выборку нового набора данных на каждой итерации и вместо этого каждый раз переставлять один и тот же набор данных. Это, кажется, дает аналогичные результаты.
источник