Как разные методы перекрестной проверки сравниваются с точки зрения дисперсии модели и смещения?
Мой вопрос частично мотивирован этой веткой: Оптимальное количество сгибов в перекрестной проверке с кратным распределением : всегда ли лучший выбор - резюме с пропуском? , Ответ на этот вопрос предполагает, что модели, изученные с помощью перекрестной проверки с пропуском, имеют более высокую дисперсию, чем модели, изученные с помощью регулярной перекрестной проверки с кратным повторением, что делает CV на основе пропуска одним худшим выбором.
Тем не менее, моя интуиция подсказывает мне, что в CV, оставленном без участия, следует видеть относительно более низкую дисперсию между моделями, чем в CV с кратным сгибом, поскольку мы смещаем только одну точку данных по сгибам, и, следовательно, обучающие наборы между сгибами существенно перекрываются.
Или в другом направлении, если в K- кратном CV низок , обучающие наборы будут сильно отличаться в разных сгибах, и результирующие модели с большей вероятностью будут отличаться (следовательно, более высокая дисперсия).
Если приведенный выше аргумент верен, почему модели, изученные с помощью однозначного резюме, имеют более высокую дисперсию?
источник
Ответы:
[TL: DR] Резюме последних сообщений и дебатов (июль 2018 г.)
Эта тема широко обсуждалась как на этом сайте, так и в научной литературе, с противоречивыми взглядами, интуицией и выводами. Еще в 2013 году , когда этот вопрос был первым спросили, доминирующая точка зрения заключалось в том , что LOOCV приводит к большей дисперсии ожидаемой ошибки обобщения алгоритма обучения производить модели из образцов размера .n(K−1)/K
Эта точка зрения, однако, представляется неправильным обобщением частного случая, и я бы сказал, что правильный ответ: «это зависит ...»
Перефразируя Ива Грандвалета, автора статьи 2004 года на эту тему, я бы подытожил интуитивный аргумент следующим образом:
Остальная часть этого ответа предлагает симуляцию на игрушечном примере и неформальный обзор литературы.
[Обновление] Вы можете найти здесь альтернативную симуляцию для нестабильной модели при наличии выбросов.
Симуляции на игрушечном примере, показывающие уменьшение / постоянную дисперсию
Рассмотрим следующий игрушечный пример, где мы подгоняем полином 4 степени к шумной синусоиде. Мы ожидаем, что эта модель будет плохо работать для небольших наборов данных из-за переобучения, как показано кривой обучения.
Обратите внимание, что мы планируем 1 - MSE здесь, чтобы воспроизвести иллюстрацию из ESLII стр. 243
методология
Вы можете найти код для этой симуляции здесь . Подход был следующий:
Левая сторона : Kfolds для 200 точек данных, Правая сторона : Kfolds для 40 точек данных
Стандартное отклонение MSE (по наборам данных i) против Kfolds
Из этой симуляции кажется, что:
Неформальный обзор литературы
Следующие три статьи исследуют смещение и дисперсию перекрестной проверки
Кохави 1995
Эта статья часто упоминается как источник для аргумента, что LOOC имеет более высокую дисперсию. В разделе 1:
Это утверждение является источником большой путаницы, потому что, похоже, оно было написано Эфроном в 1983 году, а не Кохави. Как теоретические аргументы Кохави, так и экспериментальные результаты противоречат этому утверждению:
Следствие 2 (Дисперсия в CV)
Эксперимент В своем эксперименте Кохави сравнивает два алгоритма: дерево решений C4.5 и наивный байесовский классификатор по нескольким наборам данных из хранилища UC Irvine. Его результаты приведены ниже: LHS - точность против сгибов (то есть смещение), а RHS - стандартное отклонение против сгибов.
Фактически, только дерево решений по трем наборам данных имеет более высокую дисперсию для увеличения K. Другие результаты показывают уменьшение или постоянную дисперсию.
Наконец, хотя заключение можно сформулировать более убедительно, нет никаких аргументов в пользу того, что LOO имеет более высокую дисперсию, как раз наоборот. Из раздела 6. Резюме
Чжан и Ян
Авторы твердо придерживаются этой темы и четко заявляют в разделе 7.1.
Экспериментальные результаты Аналогичным образом эксперименты Чжана указывают в направлении уменьшения дисперсии с K, как показано ниже для истинной модели и неправильной модели для рисунка 3 и рисунка 5.
источник
Тем не менее, обратите внимание, что, хотя двукратная перекрестная проверка не имеет проблемы с наложением обучающих наборов, она также часто имеет большие расхождения, поскольку обучающие наборы составляют только половину размера исходной выборки. Хороший компромисс - десятикратная перекрестная проверка.
Некоторые интересные статьи, которые касаются этой темы (из многих других):
источник
Я думаю, что ваша интуиция имеет смысл, если вы думаете о прогнозах, сделанных моделями в каждой раздаче. Они основаны на коррелированных / очень похожих данных (полный набор данных минус одна точка данных) и, следовательно, будут давать схожие прогнозы, т. Е. Низкая изменчивость.
Однако источник путаницы заключается в том, что, когда люди говорят о LOOCV, приводящем к высокой изменчивости, они не говорят о предсказаниях, сделанных многими моделями, построенными во время этой петли перекрестной проверки на наборах несогласных. Вместо этого они говорят о том, насколько изменчива будет ваша окончательно выбранная модель (та, что была выбрана с помощью LOOCV), если вы обучите эту точную модель / параметры на новых тренировочных наборах - тренировочных наборах, которых ваша модель раньше не видела. В этом случае изменчивость будет высокой.
Почему изменчивость будет высокой? Давайте немного упростим это. Представьте, что вместо использования LOOCV для выбора модели у вас был только один обучающий набор, а затем вы протестировали модель, построенную с использованием этих обучающих данных, скажем, 100 раз на 100 единичных тестовых точках данных (точки данных не являются частью обучающего набора). , Если вы выберете модель и набор параметров, которые лучше всего подходят для этих 100 тестов, то вы выберете тот, который позволит этому конкретному обучающему набору действительно хорошо предсказать данные теста. Вы могли бы потенциально выбрать модель, которая фиксирует 100% связей между этим конкретным набором обучающих данных и данными удержания. К сожалению, некоторая часть этих ассоциаций между обучающими и тестовыми наборами данных будет связана с шумом или ложными связями, потому что, хотя набор тестов меняется, и вы можете определить шум на этой стороне, обучающий набор данных этого не делает, и вы не можете определить, что объясняется отклонением из-за шума. Другими словами, это означает, что ваши прогнозы соответствуют конкретному набору данных.
Теперь, если бы вам пришлось многократно переучивать эту модель с одинаковыми параметрами на новых тренировочных наборах, что бы произошло? Что ж, модель, которая соответствует определенному набору обучающих данных, приведет к изменчивости ее прогноза при изменении обучающего набора (т. Е. Слегка измените обучающий набор, и модель существенно изменит свои прогнозы).
Поскольку все сгибы в LOOCV сильно коррелированы, это похоже на вышеописанный случай (один и тот же тренировочный набор; разные контрольные точки). Другими словами, если этот конкретный обучающий набор имеет некоторую ложную корреляцию с этими контрольными точками, ваша модель будет испытывать трудности при определении того, какие корреляции являются реальными, а какие ложными, потому что, даже если тестовый набор изменяется, обучающий набор этого не делает.
Напротив, менее коррелированные тренировочные сгибы означают, что модель будет соответствовать нескольким уникальным наборам данных. Таким образом, в этой ситуации, если вы переучите модель на другом новом наборе данных, это приведет к аналогичному прогнозу (т. Е. Небольшой изменчивости).
источник
Хотя этот вопрос довольно старый, я хотел бы добавить дополнительный ответ, потому что я думаю, что стоит пояснить это немного подробнее.
Этот ответ не предполагает этого, и не должен. Давайте рассмотрим ответ, предоставленный там:
Это говорит о производительности . Здесь производительность следует понимать как производительность модели оценки ошибок . Что вы оцениваете с помощью k-fold или LOOCV, так это производительность модели, как при использовании этих методов для выбора модели, так и для предоставления оценки ошибки самой по себе. Это НЕ дисперсия модели, это дисперсия оценки ошибки (модели). Смотрите пример (*) ниже.
Именно эта более низкая дисперсия и более высокая корреляция между моделями делает оценку, о которой я говорю выше, более дисперсной, поскольку эта оценка является средним значением этих коррелированных величин, а дисперсия среднего значения коррелированных данных выше, чем оценка некоррелированных данных. , Здесь показано почему: дисперсия среднего значения коррелированных и некоррелированных данных .
На самом деле.
Приведенный выше аргумент верен. Теперь вопрос не так. Дисперсия модели - это совсем другая тема. Существует разница, где есть случайная величина. В машинном обучении вы имеете дело со множеством случайных величин, в частности, но не ограничиваясь ими: каждое наблюдение является случайной величиной; выборка является случайной величиной; модель, поскольку она обучается из случайной величины, является случайной величиной; оценка ошибки, которую ваша модель будет производить при обращении к населению, является случайной величиной; и, наконец, что не менее важно, ошибка модели является случайной величиной, поскольку в совокупности может быть шум (это называется неустранимой ошибкой). Также может быть больше случайности, если в процессе обучения модели участвует случайность. Крайне важно различать все эти переменные.
Последний, хотя и имеет больший уклон, должен быть предпочтительным, так как он имеет гораздо меньшую дисперсию и приемлемый уклон, то есть компромисс ( компромисс дисперсии смещения ). Пожалуйста, обратите внимание, что вы также не хотите очень низкую дисперсию, если это влечет за собой большой уклон!
Дополнительное примечание : в этом ответе я пытаюсь прояснить (как мне кажется,) неправильные представления, которые окружают эту тему, и, в частности, пытается ответить на вопрос по точкам и точно, какие сомнения у спрашивающего. В частности, я пытаюсь прояснить, о какой дисперсии мы говорим, о чем она здесь и просится. Т.е. я объясняю ответ, который связан с ОП.
При этом, хотя я и даю теоретическое обоснование этого утверждения, мы пока не нашли убедительных эмпирических доказательств, подтверждающих его. Поэтому, пожалуйста, будьте очень осторожны.
В идеале вы должны сначала прочитать этот пост, а затем сослаться на ответ Ксавье Бурре Сикотта, в котором содержится глубокий анализ эмпирических аспектов.
источник
Проблемы действительно тонкие. Но это определенно не правда, что LOOCV имеет большую дисперсию в целом. В недавней статье обсуждаются некоторые ключевые аспекты и рассматриваются несколько, казалось бы, распространенных заблуждений о перекрестной проверке.
Юнли Чжан и Юйхун Ян (2015). Перекрестная проверка для выбора процедуры выбора модели. Журнал эконометрики, вып. 187, 95-112.
Более подробно:
источник
Прежде чем обсуждать смещение и дисперсию, первый вопрос:
источник
Я думаю, что есть более простой ответ. При увеличении k наборы тестов становятся все меньше и меньше. Так как сгибы выбираются случайным образом, с небольшими тестовыми наборами может случиться так, что с более крупными они не так вероятны, что они не являются репрезентативными для случайного перемешивания. Один набор тестов может содержать все трудные для прогнозирования записи, а другой - все простые. Таким образом, дисперсия высока, когда вы прогнозируете очень маленькие тестовые наборы за раз.
источник