Какова процедура «начальной загрузки» (иначе говоря, «перекрестная проверка с повторной выборкой»)?

15

«Проверка правильности начальной загрузки» / «перекрестная проверка повторной выборки» является новой для меня, но обсуждалась путем ответа на этот вопрос . Я собираю, что это включает 2 типа данных: реальные данные и моделируемые данные, где данный набор моделируемых данных генерируется из реальных данных путем повторной выборки с заменой, пока моделируемые данные не будут иметь тот же размер, что и реальные данные. Я могу подумать о двух подходах к использованию таких типов данных: (1) подгонять модель один раз, оценивать ее много раз на многих смоделированных наборах данных; (2) подгонять модель много раз, используя каждый из множества смоделированных наборов данных, каждый раз сравнивая ее с реальными данными. Какой (если любой) лучше?

Майк Лоуренс
источник

Ответы:

20

Краткий ответ: Обе методики проверки включают обучение и тестирование ряда моделей.

Длинный ответ о том, как это сделать лучше всего: это, конечно, зависит. Но вот некоторые мысли, которые я использую, чтобы руководствоваться моими решениями о проверке повторной выборки. Я хемометрист, поэтому эти стратегии, а также термины более или менее тесно связаны с аналитически-химическими проблемами.

Чтобы немного объяснить свои мысли, я считаю, что валидация - это измерение качества модели, а обучение - это измерение. параметров модели - это приводит к достаточно мощной аналогии с любым другим видом измерения.

Существуют две разные точки зрения на эти подходы в отношении валидации:

  1. Традиционная точка зрения для проверки повторной выборки такова: набор данных с передискретизацией (иногда называемый суррогатным набором данных или подмножеством) практически совпадает с исходным (реальным) набором данных.
    Поэтому «суррогатная модель», подходящая для суррогатного набора данных, практически такая же, как модель, подходящая для всего реального набора данных. Но некоторые образцы исключены из набора суррогатных данных, модель не зависит от них. Таким образом, я беру эти оставленные или не загруженные выборки в качестве независимого набора проверки для суррогатной модели и использую результат в качестве аппроксимации всей модели данных.
    Однако суррогатная модель часто не совсем эквивалентна модели целых данных: для обучения использовалось меньше выборок (даже для начальной загрузки число различных выборок меньше). Пока кривая обучения увеличивается, суррогатная модель в среднем немного хуже, чем модель целых данных. Это общеизвестный пессимистический уклон проверки правильности повторной выборки (если вы в конечном итоге получаете оптимистический уклон, это, как правило, показатель того, что тестовый набор «пропущенный / неработающий» не был независимым от модели).

  2. Вторая точка зрения состоит в том, что набор данных с передискретизацией является возмущенной версией всего набора данных. Изучение того, как суррогатные модели (или их прогнозы для выборок / опущенных выборок) отличаются от модели целых данных, затем говорит кое-что о стабильности модели по отношению к обучающим данным.
    С этой точки зрения, суррогатные модели представляют собой нечто вроде повторных измерений. Скажем, ваша задача - измерить содержание какого-то минерала в целой цепочке руды. Руда не однородна. Таким образом, вы берете физические образцы из разных мест, а затем смотрите на общий контент и его вариации в поезде. Точно так же, если вы считаете, что ваша модель может быть нестабильной, вы можете посмотреть на общую производительность и вариации суррогатных моделей.

N проводилось в случаях, которые уже известны модели. Другими словами, проверяются только пропущенные случаи. Это повторяется много раз (каждая модель опускает свой набор случаев) для того, чтобы (а) измерить и (б) как можно лучше усреднить изменения, обусловленные конечными (малыми) размерами выборки (как для тестирования, так и для обучения) ,
Я обычно повторяю случаи, например, один случай = все измерения одного пациента. Затем все пациенты, у которых нет результатов измерений в данных тренировок, распаковываются. Это полезно, если вы знаете, что измерения одного случая больше похожи друг на друга, чем измерения других случаев (или, по крайней мере, вы не можете исключить эту возможность).

Не то, чтобы валидация повторной выборки позволяла измерять производительность для неизвестных образцов. Если, кроме того, вы хотите измерить производительность для неизвестных будущих образцов (инструментальный дрейф!), То вам нужен тестовый набор, который измеряется «в будущем», то есть через определенное время после того, как были измерены все тренировочные образцы. В аналитической химии это необходимо, например, если вы хотите узнать, как часто вам нужно повторять калибровку вашего прибора (для каждого определения, ежедневно, еженедельно, ежемесячно, ...)

Bootstrap против терминологии перекрестной проверки :

  • пересчет с заменой часто называют начальной загрузкой,
  • повторная выборка без замены перекрестной проверки.

Оба могут иметь некоторую стратификацию. Исторически, расщепление для перекрестной проверки (по крайней мере, в хемометрике) часто делалось неслучайным образом, например, трехкратная перекрестная проверка формы abcabc..abc (набор данных отсортирован по результатам) для калибровки / регрессия, если у вас очень мало случаев (физических выборок), и вы хотите убедиться, что весь ваш диапазон данных покрыт.

Оба метода обычно повторяются / повторяются несколько раз. Опять же, по историческим причинам и, по крайней мере, в хемометрике, перекрестная проверка в k-кратном выражении часто означает обучение и тестирование k моделей (каждая из которых проверяется с 1 / k-й частью данных, которые не были задействованы в обучении). Если такое случайное разбиение повторяется, люди называют его повторным или повторным перекрестным подтверждением.

ККNNN

  • Обратите внимание, что начальная загрузка не подходит для некоторых методов подбора модели, которые сначала удаляют повторяющиеся измерения.
  • Существуют некоторые варианты начальной загрузки, например .632-bootstrap и .632 + -bootstrap

КК

cbeleites поддерживает Монику
источник
Длинный ответ хорош.
Момо
(+1) отличная перспектива. Я почти уверен, что термин суррогатная будет придерживаться.
Штеффен
@steffen, спасибо. Я ни в коем случае не изобретатель этого термина. Я думаю, что я впервые встретился в какой-то статье У. Брага-Нето (возможно, эта: ncbi.nlm.nih.gov/pubmed/14960464 ), но я сразу убедился в этом термине ...
cbeleites поддерживает Монику
По поводу замечания в вопросе о смоделированных данных. Сама по себе начальная загрузка не включает смоделированные данные. Смоделированные данные будут использоваться для оценки того, работает ли метод начальной загрузки для конкретной проблемы. Но сам начальный загрузчик - это просто повторное использование данных, основанных на образце начальной загрузки. Образцы выбираются случайным образом с заменой из исходного набора данных. Обычно это включает в себя n повторных выборок, где n - размер исходного образца. Монте-Карло вводит как способ приблизить распределение начальной загрузки, фактически генерируя образцы начальной загрузки на компьютере.
Майкл Р. Черник
3

Я не знаю о «лучшем» (что, вероятно, зависит от того, для чего вы его используете), но я использую проверку начальной загрузки для оценки ошибки на новых данных следующим образом (третий способ, если хотите):

  1. Нарисуйте обучающий набор из N наблюдений из исходных данных (размера N) с заменой.
  2. Подгоните модель к данным тренировки.
  3. Оценить модель по образцам вне сумки

То, что находится вне сумки, не всегда четко определено. Часто это все те наблюдения, которые не были частью учебного набора. Более строгим было бы (я использую это таким образом) иметь только наблюдения в выборке oob, которые имеют реализацию всего вектора предиктора, который не является частью обучающего набора (что особенно полезно, если у вас много факторов). Еще более строгим является использование выборки oob, которая содержит только те наблюдения, которые имеют различную реализацию переменной предиктора для предикторов, выбранных в модели (особенно полезно, если модель найдена с некоторой процедурой выбора переменной, например деревьями).

Затем я обычно повторяю это число k раз и собираю результаты по k-кратным значениям (среднее значение или медиана или любая другая полезная статистика). Модель, выбранная таким образом, может затем быть приспособлена к общему набору данных (как в вашем варианте 2), чтобы дополнительно измерить, если все еще существует тенденция к переоснащению (показатель эффективности должен быть не слишком далеко от образцов начальной загрузки).

Если у меня есть несколько моделей, сетка параметров или аналогичная, я подгоняю их все к каждому тренировочному набору и оцениваю их все по каждой выборке. Также возможно не использовать обучающий набор дважды, но для каждой комбинации модели или параметра настройки нарисовать новую пару обучения / работы.

Смотрите, например, Дизайн и анализ контрольных экспериментов .

Момо
источник