Я читал снова и снова, что перекрестная проверка «Оставить один» имеет высокую дисперсию из-за большого перекрытия тренировочных сгибов. Однако я не понимаю, почему это так: не должны ли результаты перекрестной проверки быть очень стабильными (низкая дисперсия) именно потому, что тренировочные наборы практически идентичны? Или я неправильно понимаю понятие «дисперсия»?
Я также не до конца понимаю, как LOO может быть беспристрастным, но иметь высокую дисперсию? Если оценка LOO равна истинному значению оценки в ожидании - как тогда она может иметь высокую дисперсию?
Примечание: я знаю, что здесь есть похожий вопрос: почему отклонение от одной проверки кросс-валидации (LOOCV) относительно средней оценки высокой ошибки? Однако ответивший позже говорит в комментариях, что, несмотря на возражения, он понял, что его ответ неверен.
источник
Ответы:
Этот вопрос, вероятно, в конечном итоге будет закрыт как дубликат дисперсии и предвзятости в перекрестной проверке: почему резюме, оставленное без ответа, имеет более высокую дисперсию? , но прежде чем это произойдет, я думаю, что я превращу свои комментарии в ответ.
Вам нужно подумать о дисперсии между различными реализациями всего набора данных. Для данного набора данных перекрестная проверка по принципу «один-один-один» действительно даст очень похожие модели для каждого разбиения, поскольку тренировочные наборы пересекаются так сильно (как вы правильно заметили), но все эти модели могут быть вместе далеко от истинной модели; в разных наборах данных они будут сильно различаться в разных направлениях, что приведет к высокой дисперсии.
По крайней мере, так я это понимаю. Пожалуйста, смотрите связанные темы для дальнейшего обсуждения, и ссылки на статьи для еще большего обсуждения.
источник
for one particular dataset we can expect a very good estimation
. Я думаю, что это можно интерпретировать как означающее, что оценка некоторого параметра, специфичного для набора данных, будет хорошей. Но в целом перекрестная проверка должна оценивать параметр совокупности : насколько хорошо определенный тип модели может делать прогнозы относительно зависимой переменной в совокупности; и мы не можем ожидать очень хорошей оценки от LOOCV, из-за того, что вы написали (оценка естьvery specific for this particular dataset
).Эта высокая разница по отношению к пространству тренировочных наборов. Вот почему LOOCV имеет высокую дисперсию: в LOOCV мы получаем ошибку прогнозирования для каждого наблюдения, скажем, наблюдения i, используя весь наблюдаемый набор данных, за исключением этого наблюдения. Таким образом, прогнозируемое значение для i очень зависит от текущего набора данных. Теперь предположим, что мы наблюдаем другой независимый набор данных и подгоняем модель к этому новому набору данных. Если мы используем эту новую модель, чтобы получить прогнозируемое значение для наблюдения i, прогнозируемое значение потенциально очень сильно отличается от того, которое оценивается LOOCV (хотя в среднем верно (несмещено)).
Это интуиция, лежащая в основе высокой дисперсии прогнозирования ошибок в LOOCV.
Однако, если вы используете LOOCV для сравнения результатов модели с разными гиперпараметрами, я полагаю, что вы можете безопасно использовать LOOCV для оценки ошибок прогнозирования, при условии, что истинное значение ошибки прогнозирования не представляет интереса, то есть вы просто хотите сравните различные модели с наблюдаемым обучающим набором, и вас не волнует фактическая истинная ошибка, которую нужно оценить.
При этом, как правило, если у вас небольшая выборка, используйте LOOCV, в противном случае используйте k-кратное CV с меньшим значением k.
источник