Я наткнулся на эту статью 2012 года, написанную Гитте Ванвинкеленом и Хендриком Блокелом, в которой ставится под сомнение полезность повторной перекрестной проверки, которая стала популярным методом уменьшения дисперсии перекрестной проверки.
Авторы продемонстрировали, что, хотя повторная перекрестная проверка действительно уменьшает дисперсию предсказаний модели, поскольку для того же набора данных выборки проводится повторная выборка, среднее значение оценок повторной выборки перекрестной проверки сходится к смещенной оценке истинной точности прогноза и, следовательно, бесполезно.
Следует ли использовать повторную перекрестную проверку, несмотря на эти ограничения?
cross-validation
RobertF
источник
источник
Ответы:
Аргумент, который, кажется, приводит газета, кажется мне странным.
Согласно этому документу, целью CV является оценка , ожидаемой предсказательной производительности модели на новых данных, учитывая , что модель была обучена на наблюдаемом наборе данных S . Когда мы проводим K кратной CV, мы получаем оценку А из этого числа. Из-за случайного разбиения S в K складок, это случайная величина , ~ е ( ) со средним μ к и дисперсияα2 S k A^ S k A^∼f(A) μk . Напротив, n- кратное повторение CV дает оценку с тем же среднимσ2k n но меньшая дисперсия σ 2 k / n .μk σ2k/n
Очевидно, . Этот уклон - это то, что мы должны принять.α2≠μk
Тем не менее, ожидаемая ошибка будет больше при меньших п , и будет наибольшим для п = 1 , по крайней мере , при разумных предположениях о F ( A ) , например , когда ˙ ~ N ( μ к , σ 2 к / н ) . Другими словами, повторное CV позволяет получить более точную оценку µ kE[|α2−A^|2] n n=1 f(A) A^∼˙N(μk,σ2k/n) μk и это хорошо, потому что дает более точную оценку .α2
Следовательно, повторное резюме является строго более точным, чем повторное резюме.
Авторы не спорят с этим! Вместо этого они утверждают, на основе моделирования, что
Это просто означает, что в их моделировании было довольно низким; и , действительно, самый низкий размер выборки они использовали 200 , который, вероятно , является достаточно большим , чтобы получить небольшие σ 2 K . (Разница в оценках, полученных с неповторяющимся CV и 30-кратным повторением CV, всегда мала.) При меньших размерах выборки можно ожидать большей дисперсии между повторениями.σ2k 200 σ2k
ПРЕДУПРЕЖДЕНИЕ: доверительные интервалы!
Другой момент, который авторы делают, заключается в том, что
adult
БОЛЬШЕ ОБЩЕЙ ПРОБЛЕМЫ: дисперсия CV.
Вы написали, что повторили резюме
источник