Следует ли использовать повторную перекрестную проверку для оценки прогностических моделей?

16

Я наткнулся на эту статью 2012 года, написанную Гитте Ванвинкеленом и Хендриком Блокелом, в которой ставится под сомнение полезность повторной перекрестной проверки, которая стала популярным методом уменьшения дисперсии перекрестной проверки.

Авторы продемонстрировали, что, хотя повторная перекрестная проверка действительно уменьшает дисперсию предсказаний модели, поскольку для того же набора данных выборки проводится повторная выборка, среднее значение оценок повторной выборки перекрестной проверки сходится к смещенной оценке истинной точности прогноза и, следовательно, бесполезно.

Следует ли использовать повторную перекрестную проверку, несмотря на эти ограничения?

RobertF
источник
6
По моему опыту, перекрестная проверка (повторная или нет) не дает очень хорошей оценки точности прогнозирования. Но это очень полезно для сравнения прогностической эффективности различных моделей. Это хороший способ выбора между моделями, но не хороший способ оценить производительность отдельной модели.
Камбала
@Flounderer Это хороший момент. Моя интерпретация статьи заключается в том, что мы не можем сделать значимые сравнения моделей, основанных на повторной перекрестной проверке и неповторной перекрестной проверке. Вы пытаетесь выжать из данных необоснованное количество информации. Или это неправильно?
RobertF

Ответы:

11

Аргумент, который, кажется, приводит газета, кажется мне странным.

Согласно этому документу, целью CV является оценка , ожидаемой предсказательной производительности модели на новых данных, учитывая , что модель была обучена на наблюдаемом наборе данных S . Когда мы проводим K кратной CV, мы получаем оценку А из этого числа. Из-за случайного разбиения S в K складок, это случайная величина , ~ е ( ) со средним μ к и дисперсияα2SkA^SkA^f(A)μk . Напротив, n- кратное повторение CV дает оценку с тем же среднимσk2n но меньшая дисперсия σ 2 k / n .μkσk2/n

Очевидно, . Этот уклон - это то, что мы должны принять.α2μk

Тем не менее, ожидаемая ошибка будет больше при меньших п , и будет наибольшим для п = 1 , по крайней мере , при разумных предположениях о F ( A ) , например , когда ˙ ~ N ( μ к , σ 2 к / н ) . Другими словами, повторное CV позволяет получить более точную оценку µ kE[|α2A^|2]nn=1f(A)A^˙N(μk,σk2/n)μkи это хорошо, потому что дает более точную оценку .α2

Следовательно, повторное резюме является строго более точным, чем повторное резюме.

Авторы не спорят с этим! Вместо этого они утверждают, на основе моделирования, что

уменьшение дисперсии [путем повторения CV] во многих случаях не очень полезно и, по сути, является пустой тратой вычислительных ресурсов.

Это просто означает, что в их моделировании было довольно низким; и , действительно, самый низкий размер выборки они использовали 200 , который, вероятно , является достаточно большим , чтобы получить небольшие σ 2 K . (Разница в оценках, полученных с неповторяющимся CV и 30-кратным повторением CV, всегда мала.) При меньших размерах выборки можно ожидать большей дисперсии между повторениями.σk2200σk2

ПРЕДУПРЕЖДЕНИЕ: доверительные интервалы!

Другой момент, который авторы делают, заключается в том, что

сообщение о доверительных интервалах [при повторной перекрестной проверке] вводит в заблуждение.

μkα2

k

adultμk

БОЛЬШЕ ОБЩЕЙ ПРОБЛЕМЫ: дисперсия CV.

Вы написали, что повторили резюме

стала популярной техникой для уменьшения дисперсии перекрестной проверки.

μkk=Nk

α1S

амеба говорит восстановить монику
источник
1
Я надеюсь, что @cbeleites заметит эту ветку и прокомментирует здесь или оставит свой собственный ответ: я знаю, что она (или использовала) многократное CV много раз, и я думаю, что выступает за вычисление изменчивости по повторам как некоторый показатель стабильности модели. Но я не думаю, что она вычислила бы CI по повторениям.
говорит амеба, восстанови Монику
1
μkα2μkα2μk
1
@RobertF: я говорил (следуя статье V & B) об оценке производительности модели. Мой тезис состоит в том, что повторное CV является более точным, чем неповторяющееся CV, и я думаю, что это несомненно (V & R утверждает, что разница в точности, как правило, не так важна на практике). Сравнение двух моделей гораздо сложнее, потому что, скажем, вы запускаете CV и получаете 70% для одной модели и 71% для другой модели. Это «существенная» разница? Ну, это сложная проблема без однозначного ответа. И это не зависит от повторяющихся / неповторяющихся проблем.
говорит амеба, восстанови Монику
Пища для размышления: applypredictivemodeling.com/blog/2014/11/27/…
shadowtalker
1
σk