10-кратная перекрестная проверка по сравнению с перекрестной проверкой с пропуском одного

25

Я делаю вложенную перекрестную проверку. Я читал, что перекрестная проверка без участия может быть предвзятой (не помню почему).

Лучше ли использовать 10-кратную перекрестную проверку или перекрестную проверку по принципу «один-один-выход», кроме более продолжительного времени выполнения перекрестной проверки «один-один-выход»?

машины
источник
1
Ты помнишь, где ты это читал?
Ричард Харди
5
Вы видели этот пост о предвзятости? Кроме того, в этом ответе есть цитата из очень хорошей книги, которая рекомендует 5-кратную или 10-кратную перекрестную проверку.
Эрик Фарнг
1
Этот пост немного связан.
Ричард Харди
1
Спасибо. Таким образом, в целом можно сказать, что я должен идти с 10-кратным резюме вместо одного-одного резюме? Это также верно для небольшого набора данных?
техника
1
@Thomas, когда ваш набор данных становится слишком маленьким, вы в конечном итоге почти делаете LOO-CV, поэтому преимущество 10-кратного CV уменьшается с уменьшением размера вашего набора данных.
cdeterman

Ответы:

27

Просто добавить немного к ответу @SubravetiSuraj (+1)

Перекрестная проверка дает пессимистически предвзятую оценку эффективности, потому что большинство статистических моделей улучшится, если обучающий набор будет увеличен. Это означает, что перекрестная проверка в k-кратном размере оценивает производительность модели, обученной на наборе данных 100 * (k-1) / k% доступных данных, а не на 100%. Таким образом, если вы выполняете перекрестную проверку для оценки производительности, а затем используете модель, обученную на всех данных для оперативного использования, она будет работать немного лучше, чем предполагает оценка перекрестной проверки.

Перекрестная проверка «оставь один раз» примерно беспристрастна , потому что разница в размерах между тренировочным набором, используемым в каждом сгибе, и всем набором данных - это только один шаблон. Об этом есть статья Лунца и Браиловского.

Лунц, Александр и Виктор Браиловские. «Об оценке символов, полученных в статистической процедуре распознавания». Техническая Кибернетика 3,6 (1969): 6-12.

смотрите также

Оценка коэффициентов ошибок в дискриминантном анализе Питер А. Лахенбрух и М. Рэй Микки. 10, вып. 1,1968

Однако, несмотря на то, что перекрестная проверка по принципу «один-один-один» является приблизительно несмещенной, она имеет тенденцию к высокой дисперсии (поэтому вы получите очень разные оценки, если вы повторите оценку с разными исходными выборками данных из одного и того же распределения). Поскольку погрешность оценки представляет собой комбинацию отклонения и дисперсии, то, будет ли перекрестная проверка с одним пропуском лучше, чем 10-кратная перекрестная проверка, зависит от обеих величин.

Теперь дисперсия в подгонке модели имеет тенденцию быть выше, если она подобрана для небольшого набора данных (так как она более чувствительна к любым помехам / артефактам выборки в конкретной используемой обучающей выборке). Это означает, что 10-кратная перекрестная проверка, скорее всего, будет иметь высокую дисперсию (а также более высокий уклон), если у вас есть только ограниченный объем данных, так как размер обучающего набора будет меньше, чем для LOOCV. Таким образом, перекрестная проверка в k-кратном порядке также может иметь проблемы с отклонениями, но по другой причине. Вот почему LOOCV часто лучше, когда размер набора данных невелик.

Однако основная причина использования LOOCV, на мой взгляд, заключается в том, что он является недорогим в вычислительном отношении для некоторых моделей (таких как линейная регрессия, большинство методов ядра, классификаторы ближайших соседей и т. Д.), И, если набор данных не был очень маленьким, я бы использовал 10-кратная перекрестная проверка, если она вписывается в мой вычислительный бюджет, или, что еще лучше, начальная оценка и пакетирование.

Дикран Сумчатый
источник
2
+1 за малоизвестную русскую ссылку 1969 года! У вас есть хорошая рекомендация для LOOCV с высокой дисперсией? Об этом говорится в Hastie et al., Но я не уверен, что аргумент убедил меня на 100%, и я не видел эмпирических демонстраций (симуляций).
говорит амеба: восстанови
3
да, я не думаю, что я согласен с этим, так как предполагается, что модель устойчива при возмущениях, вызванных удалением тестовых образцов, что может только приблизиться к истине, если у вас очень большой набор данных (т.е. только асимптотически верно, но если бы у вас было столько данных, почти любая разумная схема оценки производительности дала бы вам тот же результат).
Дикран Marsupial
2
+1 (как пост, так и последний комментарий - отличная статья, за которой не следует слепо следить (как любая другая статья)).
usεr11852 говорит восстановить Monic
2
@Dikran Эта тема (о LOOCV, имеющей наибольшую дисперсию) снова возникла в отдельном и довольно интересном вопросе: stats.stackexchange.com/questions/280665 , вы можете захотеть взглянуть.
говорит амеба: восстанови Монику
2
К
20

На мой взгляд, лучше не использовать перекрестную проверку, если у вас есть небольшой набор данных для обучения. В этом случае вы не сможете сделать 10 кратных прогнозов, чтобы использовать оставшиеся данные для обучения модели.

С другой стороны, если у вас есть большой объем обучающих данных, лучше было бы сделать 10-кратную перекрестную проверку, потому что будет слишком много итераций, чтобы пропустить одну перекрестную проверку, и рассмотрение этих многочисленных результатов для настройки ваших гиперпараметров может Не будь такой хорошей идеей.

Согласно ISL, всегда есть компромисс между смещением и пропуском проверки. В LOOCV (оставьте одно резюме) вы получаете оценки ошибки теста с более низким смещением и более высокой дисперсией, потому что каждый обучающий набор содержит n-1 примеров, что означает, что вы используете почти весь обучающий набор в каждой итерации. Это также приводит к более высокой дисперсии, поскольку существует много совпадений между обучающими наборами, и, таким образом, оценки ошибок теста имеют высокую корреляцию, что означает, что среднее значение оценки ошибки теста будет иметь более высокую дисперсию.

Противоположность верна для k-кратного CV, потому что между тренировочными наборами относительно меньше совпадений, таким образом, оценки ошибок теста менее коррелированы, в результате чего среднее значение ошибки теста не будет иметь такой большой разницы, как LOOCV.

Субравети Сурадж
источник