Примечание: регистр n >> p
Я читаю Элементы статистического обучения, и есть различные упоминания о «правильном» способе перекрестной проверки (например, стр. 60, стр. 245). В частности, мой вопрос заключается в том, как оценить итоговую модель (без отдельного набора тестов) с использованием k-кратного CV или начальной загрузки, когда был поиск модели? Похоже, что в большинстве случаев (алгоритмы ML без выбора встроенной функции)
- Шаг выбора функции
- Шаг выбора метапараметра (например, параметр стоимости в SVM).
Мои вопросы:
- Я видел, что шаг выбора функции может быть сделан, когда выбор функции сделан на всем обучающем наборе и отложен в сторону. Затем, используя k-кратное CV, алгоритм выбора признаков используется в каждом сгибе (возможно, каждый раз выбираются разные функции), и ошибка усредняется. Затем вы должны использовать выбранные функции, используя все данные (которые были выделены), для обучения окончательного режима, но использовать ошибку перекрестной проверки в качестве оценки будущей производительности модели. ЭТО ВЕРНО?
- Когда вы используете перекрестную проверку для выбора параметров модели, как тогда оценить производительность модели? Это тот же процесс, как № 1 выше или вы должны использовать вложенное резюме, как показано на странице 54 ( pdf ) или что-то еще?
- Когда вы делаете оба шага (настройка функций и параметров) ..... тогда что вы делаете? сложные вложенные циклы?
- Если у вас есть отдельная выборка задержки, исчезнет ли проблема, и вы сможете использовать перекрестную проверку для выбора функций и параметров (без беспокойства, поскольку ваша оценка производительности будет получена из набора задержки)?
Ответы:
Главное, что следует помнить, это то, что для перекрестной проверки, чтобы дать (почти) непредвзятую оценку эффективности, каждый шаг, связанный с подгонкой модели, также должен выполняться независимо в каждом цикле процедуры перекрестной проверки. Лучшее, что можно сделать, - это просмотреть выбор объектов, настройку мета / гиперпараметров и оптимизировать параметры как неотъемлемые части подбора модели и никогда не выполнять ни один из этих шагов без выполнения двух других.
Оптимистическая предвзятость, которая может быть вызвана отходом от этого рецепта, может быть на удивление большой, как продемонстрировали Коули и Тэлбот , где смещение, вызванное явно доброкачественным отклонением, было больше, чем разница в производительности между конкурирующими классификаторами. Хуже по-прежнему предвзятые протоколы наиболее сильно отдают предпочтение плохим моделям, так как они более чувствительны к настройке гиперпараметров и, следовательно, более склонны к чрезмерному соответствию критерию выбора модели!
Ответы на конкретные вопросы:
Процедура, описанная в шаге 1, действительна, потому что выбор признаков выполняется отдельно в каждом сгибе, поэтому перекрестная проверка выполняется для всей процедуры, используемой для подбора окончательной модели. Оценка перекрестной проверки будет иметь небольшой пессимистический уклон, поскольку набор данных для каждого сгиба немного меньше, чем весь набор данных, использованный для окончательной модели.
Для 2, так как перекрестная проверка используется для выбора параметров модели, вам необходимо повторять эту процедуру независимо в каждом из этапов перекрестной проверки, используемой для оценки производительности, в результате вы получаете вложенную перекрестную проверку.
Для 3, по сути, да, вам нужно выполнить перекрестную проверку с вложенными вложениями. По сути, вам нужно повторять в каждом сгибе самой внешней перекрестной проверки (используемой для оценки производительности) все, что вы намерены сделать, чтобы соответствовать конечной модели.
Для 4 - да, если у вас есть отдельный набор задержек, тогда это даст объективную оценку производительности без необходимости дополнительной перекрестной проверки.
источник
Я проводил обширный анализ перекрестной проверки набора данных, который стоил бы миллионы, а внешнего набора проверки не было. В этом случае я выполнил обширную перекрестную перекрестную проверку для обеспечения достоверности. Я выбрал функции и оптимизированные параметры только из соответствующих тренировочных наборов. Это вычислительно дорого для больших наборов данных, но это то, что я должен был сделать, чтобы сохранить достоверность. Тем не менее, есть сложности, которые приходят с этим ... например, различные функции выбираются в каждом наборе обучения.
Поэтому я отвечаю, что в тех случаях, когда у вас нет реального доступа к внешнему набору данных, это разумный путь. Если у вас есть набор внешних данных, вы можете в значительной степени поехать в город, как хотите, на основной набор данных, а затем протестировать один раз на внешнем наборе данных.
источник